论文部分内容阅读
近年来,以“智能语音识别”为核心的人机交互方式正处于其高速发展的黄金时期,其势头仍在不断攀升。智能语音系统除了需要语音识别模型的优秀性能外,与用于采集语音信号的麦克风阵列技术也密切相关。麦克风阵列通过对目标声源信号的空间特性进行采集和处理,从而获得质量较高的期望信号,在系统中起到了声源定位和语音增强的作用。随着人们对物质生活和品质需求的不断提高,诸多如“智能音箱”的产品纷纷问世并进入了各个家庭中,为人机交互提供了便利。而在这当中起到关键作用的麦克风阵列技术主要就包括了声源定位和波束形成,通过这两块内容来保证智能家居产品采集到高质量的语音进行识别和后续的反馈。本文针对智能家居等领域的人机交互应用背景,对麦克风阵列技术中的声源定位、波束形成均提出了一种新的方法,并通过实验验证,具体工作如下:(1)分别介绍了DS、TDOA、SRP-PHAT等常用的传统声源定位技术,并在采样率、指向性、复杂度、实际场景应用等方面分析各算法的优劣势,同时提出将基于压缩感知的麦克风阵列定位算法应用于多声源环境当中,该方法在CS-OMP算法的基础上,通过利用阵元间时延关系直接产生的房间冲激响应进行混合矩阵构造,以此实现多声源定位,并通过和传统方法比较完成性能的验证。(2)将深度学习引入波束形成的训练当中单独为波束形成构建了一个独立的神经网络用于训练麦克风阵列多通道波束。基于Tensorflow平台构建了一个可以用于进行波束形成的深度学习神经网络,包括预处理模块、神经网络模块、信号重构模块等。利用平均能量波束图和WER将该波束形成网络与传统的线性波束形成算法进行性能比较。实验结果证明了将深度学习引入波束形成方法的可行性和有效性。