网站首页 > 资讯频道 > 正文阅读

西软新势力 声海智能:用AI从复杂的环境中识音辩声

高新区管委会2022-07-01 10:38

研究统计,事物中30%的信息是由声音获取的。20世纪50年代初,ATT Bell实验室实现了一个单一发音人孤立发音的十个英文数字的语音识别系统。50年代后期,中科院声学所用频谱分析的方法研究了汉语10个元音的语音识别,到70年代后期,构建了基于模板匹配的孤立词语音识别系统。但半个世纪以来,语音识别技术的应用一直不温不火,直到2009年深度学习技术的长足发展才使得语音识别的精度大大提高。随着Siri、AmazonEcho的面世,语音识别也在一定环境下,实现了从近场语音交互到远场语音交互的突破。但对于强噪声、超远场、强干扰、多语种、大词汇等更复杂的场景应用,语音识别技术还亟需发展。

西安有这样一家企业,他们专注于声音弱信号捕捉的技术研究,将声学人工智能应用于智能语音拾取、语音增强、语音降噪、音视频分析,为医院、学校、市政交通、工业制造提供基于声音的人工智能解决方案。本期西软新势力采访到西安声海智能科技有限公司总经理李文申。

88d774408f4d3ed8af1ea344e4c0f9e

前贝尔实验室研究员、IEEE Fellow、国家重大人才工程专家陈景东教授,经过多年研究,在阵列信号处理、语音信号处理、声场重构、机器学习、模式识别、分布式信号处理、图像处理、人因工程、人工智能等领域取得了多项重要理论及技术突破,各项技术均处于国际领先水平。

2020年,在陈教授的带领下,声海智能科技有限公司成立并搭建了基于人工智能语音技术的硬科技成果转移转化与产业化平台,开启商业化之路。

李文申与声海智能自此结缘。2005年,从西安交大研究生毕业的李文申加入到中兴通讯,从工程师开始一路晋升为西安中兴物联网终端有限公司负责人。

也是在2020年,李文申离开就职15年的中兴,加入到了声海智能。从一家万人大企业,入职到一家初创公司,李文申对“襁褓”中的声海智能表现出坚定的信心,他的这份信心不仅来自于对这个团队的认可,也来自对声学人工智能未来应用前景的看好。

vshapes=

当前语音识别的主要应用趋于远场化和融合化,远场语音识别技术主要解决复杂环境下的识别问题,在智能家居、智能汽车、智能会议、智慧安防等实际场景中开始获得了广泛关注。

国内远场语音识别的技术框架以前端信号处理和后端语音识别为主,前端利用麦克风阵列与核心算法进行降噪、去混响等信号处理,以让语音更清晰,然后送入后端的语音识别引擎进行识别、分析、处理。

李文申表示,目前市场上多数语音采集与识别产品还处于近场语音识别或者是安静环境下的中近场语音识别,而在大量的嘈杂远场场景下,缺少可以实现高清音频采集的设备与系统,这一情况严重阻碍了人工智能声学产业的发展。

李文申介绍到,声海智能在语音降噪算法、麦克风阵列设计、MIMO信号处理等方面处于国际领先水平。公司目前已经储备了系列产品,包括面向安防监控系统的高性能远程拾音器、面向司法系统的双声源分离拾音器、面向智慧生活领域的环阵、线阵和面阵拾音器、面向智慧交通领域的智能语音评价器以及面向复杂环境噪声的智能降噪头盔等核心技术产品。

用李文申的话说,声海智能现阶段所做的事,就是在吵杂的场景中,远距离的捕获到目标区域的高清声音信号,弥补人工智能声学产业远场高清拾音产品缺失的短板,打通人工智能声学产业瓶颈,并利用这些高清数据,为客户提供基于业务的智慧化整体解决方案。

经过一年的发展,声海智能的产品及系统已经成功应用于交通、金融、医疗、教育、能源、园区、农业等多个行业,客户涵盖中国工商银行、唐都医院等大型企业及机构。通过与西安教育系统的合作,在数所中小学校园部署了基于声学的智能安防系统,与西安交通管理部门合作,为公共交通提供了面向车辆的基于语音拾取、语音增强、语音降噪等方面的产品与业务解决方案。

未来,声海智能将继续着力于智慧城市智能语音处理服务与降噪装备等产品与技术的研发,智慧工厂智能降噪处理设备与服务,致力于为客户提供基于语音的高质量行业解决方案。

分享:

    栏目排行

    全站排行