面向语音交互的麦克风阵列声源定位及波束形成研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:ykl122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,以“智能语音识别”为核心的人机交互方式正处于其高速发展的黄金时期,其势头仍在不断攀升。智能语音系统除了需要语音识别模型的优秀性能外,与用于采集语音信号的麦克风阵列技术也密切相关。麦克风阵列通过对目标声源信号的空间特性进行采集和处理,从而获得质量较高的期望信号,在系统中起到了声源定位和语音增强的作用。随着人们对物质生活和品质需求的不断提高,诸多如“智能音箱”的产品纷纷问世并进入了各个家庭中,为人机交互提供了便利。而在这当中起到关键作用的麦克风阵列技术主要就包括了声源定位和波束形成,通过这两块内容来保证智能家居产品采集到高质量的语音进行识别和后续的反馈。本文针对智能家居等领域的人机交互应用背景,对麦克风阵列技术中的声源定位、波束形成均提出了一种新的方法,并通过实验验证,具体工作如下:(1)分别介绍了DS、TDOA、SRP-PHAT等常用的传统声源定位技术,并在采样率、指向性、复杂度、实际场景应用等方面分析各算法的优劣势,同时提出将基于压缩感知的麦克风阵列定位算法应用于多声源环境当中,该方法在CS-OMP算法的基础上,通过利用阵元间时延关系直接产生的房间冲激响应进行混合矩阵构造,以此实现多声源定位,并通过和传统方法比较完成性能的验证。(2)将深度学习引入波束形成的训练当中单独为波束形成构建了一个独立的神经网络用于训练麦克风阵列多通道波束。基于Tensorflow平台构建了一个可以用于进行波束形成的深度学习神经网络,包括预处理模块、神经网络模块、信号重构模块等。利用平均能量波束图和WER将该波束形成网络与传统的线性波束形成算法进行性能比较。实验结果证明了将深度学习引入波束形成方法的可行性和有效性。
其他文献
在古代文献各类文体中,碑志文的写法最为固定,它的体例可以概括为世系、行治、卒葬和铭文四部分.这种历久不变的文体,透射出中国人超越生死的独特智慧--家族孝文化.世系的排
做好新时期高校大学生的思想政治教育工作,必须掌握青年大学生的思想脉搏,加强队伍建设,理论联系实际,强化“两课”学科建设,发挥思想政治教育的主渠道作用,与时俱进地推进高校思想
在我国关于操纵证券市场的犯罪已经屡见不鲜,但是更多是以传统的交易型操纵证券市场犯罪为主。但是从徐翔案的侦破来看.出现了新类型的信息型操纵证券市场犯罪.此类犯罪与传统交
目的:探析脑出血恢复期患者采用通瘀汤治疗后的效果。方法:将2015-01~2017-01接收的脑出血恢复期患者78例作为研究样本,随机均分为参照组(西医常规治疗干预)与试验组(西医疗法结合
随着环境问题的日益凸显,健全环境信息披露(EID)制度,构建市场导向的企业绿色创新体系逐渐成为新时代的呼声。环境信息披露是相关方对企业进行环境监管的重要方式,在推动企业履行环境责任方面具有重要作用。然而,以经济效益最大化为经营目标的企业,依然面临着履行环境责任与实现经济收益之间的权衡抉择问题,因而对环境信息披露的态度存在较大差异。在这样的背景下,如何从微观的角度研究环境信息披露对企业绿色创新的影响