深度学习远场语音识别的波束形成技术研究

来源 :战略支援部队信息工程大学 | 被引量 : 0次 | 上传用户:xq_wang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,语音识别技术随着深度学习的发展再度兴起并进入新的发展阶段。在近场声学环境下,自动语音识别取得了超人的识别准确率。然而,在实际应用中,拾取语音通常包含噪声、混响、回声、人声等干扰因素,使得识别性能严重下降。与近场声学环境相对应,远场声学环境是指声源与接收器之间距离为1m到10m的声学环境,囊括了智能音响、可穿戴设备和助听器等大部分语音识别系统的实际应用场景。远场语音识别技术可以提升在复杂声学环境下的语音识别性能,因此是语音识别技术应用到人们日常生活的重要技术支撑点。同时,它也是语音识别领域目前的研究难点和热点之一。为推动远场语音识别技术的发展,全球举办了多个国际顶级赛事,如CHi ME、REVERB等。本文通过分析第四届CHi ME挑战赛的远场语音识别系统,针对系统存在的问题,对系统的前端语音增强——波束形成算法进行了深入研究。具体研究内容如下:1、针对波束形成算法中基于神经网络估计时频掩蔽值时,神经网络的有监督训练方式致使估计过程存在数据不匹配问题,同时,基于实值时频掩蔽值求解声源存在概率时存在对信号信息利用不充分的问题,提出了一种集成基于神经网络和空域聚类的时频掩蔽值估计的波束形成。该方法将从两方面提升波束形成中声源存在概率估计的准确性。一方面是将基于神经网络估计的时频掩蔽值转换为声源存在概率,并将其作为基于空域聚类方法的初始时频掩蔽值,通过空域聚类方法的无监督估计,缓解神经网络方法存在的数据不匹配问题;另一方面,在集成方法中引入复值时频掩蔽值,通过充分利用信号的幅度和相位信息,提升声源存在概率求解的准确性。实验结果表明,集成方法有效缓解了神经网络方法的数据不匹配问题,复值时频掩蔽值的引入提升了集成方法中声源存在概率估计的准确性,提出的方法比基线系统在平均词错误率上取得了8.37%的相对减少。2、针对实值神经网络估计复值时频掩蔽值时存在不准确问题,提出了集成基于复值神经网络和空域聚类的时频掩蔽值估计的波束形成。一方面,将复值全连接网络作为估计器的骨干网络,利用复值的实部与虚部之间的相关性,降低神经网络的自由度,提升复值时频掩蔽值估计的准确性;另一方面,借鉴实值LSTM网络结构搭建复值LSTM网络并将复值LSTM网络作为时频掩蔽值估计器的骨干网络,通过利用复值的鲁棒记忆机制和LSTM的记忆能力来引入上下文信息,以提升时频掩蔽值估计的准确性,实现了远场语音识别性能的提升。实验证明,在平均词错误率上,集成基于复值全连接网络和空域聚类的掩蔽值估计的波束形成比集成基于实值全连接网络和空域聚类的掩蔽值估计的波束形成实现2.73%的相对下降,并通过显著性检测证明实验结果并不是由随机性造成的。另外,在集成框架中将复值LSTM网络作为掩蔽值估计器的骨干网络在时频掩蔽值的估计上取得了预期的性能提升,但集成基于复值LSTM和空域聚类的时频掩蔽值估计的波束形成没有达到预期性能。通过对实验结果分析,原因可能是基于复值LSTM网络估计时频掩蔽值时出现数据溢出问题,对声源存在概率的求解和波束形成滤波器系数的求解产生了影响。3、针对集成神经网络和空域聚类的时频掩蔽值估计器并没有解决有监督学习带来的数据不匹配问题,本文提出了一种基于神经期望最大化(Neural Expectation Maximization,Neural EM)的无监督时频掩蔽值估计。一方面,基于Neural EM的时频掩蔽值估计器在深度网络中将EM算法的迭代步骤展开为网络序列层,并由骨干神经网络代替EM算法中M步完成对概率模型参数的更新求解,将神经网络方法与模型方法进一步结合,实现基于神经网络的无监督掩蔽值估计。另一方面,通过RNN的内部递归结构替代EM算法的迭代步骤,并由编码器提取更鲁棒的特征用于概率模型参数的更新优化,实现基于RNN-EM的时频掩蔽值估计器,提升基于神经网络的无监督时频掩蔽值估计的鲁棒性和准确性。实验证明基于Neural EM的无监督时频掩蔽值估计器是可行的,并且基于RNNEM的时频掩蔽值估计器优于基于Neural EM的时频掩蔽值估计器。
其他文献
复杂环境的散射、反射和衍射会导致信号源在空间发生一定的角度扩展,此时需要将目标信号源建立为一个分布源模型。目前,针对分布源模型的波达方向(Direction of Arrival,DOA)估计算法大多基于均匀阵列,稀疏互质阵列在分布源DOA估计领域的应用面临适用性问题;现有算法大多基于分布源信号为高斯信号和圆信号的假设,较少考虑非高斯信号特性与非圆信号特性问题。相比均匀阵列,稀疏互质阵列以其阵列孔
学位
毫米波功率模块(Millimeter Wave Power Module,MMPM)是一种新型的工作在毫米波波段的微波功率放大器件,主要由毫米波小型化行波管、固态放大器及集成电源三大部分组成,具有体积小、重量轻、效率高、频率高、频带宽等优点。随着MMPM小型化水平的提高,温度过高和热量分布不均匀成为了制约其可靠性的关键因素。基于此开展MMPM的热设计研究工作,对于提高MMPM的可靠性具有重要的意义
短波通信是一种有效的无中继长距离传输无线通信手段,因其抗毁、抗干扰能力强、配置灵活、成本较低等优点,广泛应用于军事通信。随着近几十年产生了许多短波自适应通信链路标准,短波通信的稳定性和有效性显著提高。其中,美国国防部提出了MIL-STD-188-110C(以下简称110C协议)短波标准规范,信号最大带宽为24k Hz。结合当前IC技术,本文以Xilinx XCZU9EG So C芯片为平台,针对传
与GNSS卫星相比,低轨卫星对地运动速度更快,可提供更强的落地信号,若将其用于导航,可以有效提升中高轨导航星座的性能,已成为下一代导航星座的发展方向。但是,现有的全球导航星座和低轨星座大多为单一构型,存在导航性能全球分布不均匀的固有问题。为此,已有学者提出混合构型星座的解决思路,但相关设计方法尚不成熟,分析与优化的效率也有待提高。本文针对区域/全球导航服务的LEO混合构型星座,开展星座设计与优化方
当前,工业物联网伴随着全球新一轮科技革命和产业变革应运而生,涉及工业与互联网等信息通信技术的各个环节和主体。为了满足工业物联网对高速率、高密度、低延时通信的需求,可见光通信提供了一种新型的解决方案。然而,工业物联网场景中设备的移动以及高密度小区产生的小区间干扰,对可见光通信的高速鲁棒传输提出巨大挑战。为此,本文面向可见光移动通信对鲁棒接收的需求,研究阵列可见光通信移动接收的几个关键技术,主要的研究
近年来,随着互联网、物联网和智能移动终端技术的飞速发展,泛在网络的广度与深度也随之增加,与之而来的就是泛在信息的爆发式增长。作为泛在信息的一种重要表现形式,泛在统计图表能将繁冗的统计数据以直观形象的形式展现出来,在地理信息表达和传输等领域应用广泛,其中包含了大量具有重要价值的信息,实现泛在统计图表中信息的智能解译可以为各种地图产品的具体应用提供数据支撑。泛在统计图表的数据格式为栅格型图像,因此可以
随着互联网和智能设备时代的到来,现有的频谱资源日益紧张,严重限制着终端用户的数字化体验,人们对高密度与高速率通信系统的需求日益强烈。通信频谱向更高频段延伸已然成为移动通信发展的必然趋势。众所周知,毫米波频段具有相当可观的频谱资源,能够很好的摆脱当前通信系统所面临的困境。然而毫米波通信同样存在诸多问题,如传输损耗高、绕射和衍射能力弱等,严重影响通信质量及信号覆盖范围。采用波束赋形技术的多波束天线系统
辐射源个体识别技术(Specific Emitter Identification,SEI)通过提取信号中蕴含的可以表现辐射源硬件特性的细微畸变来实现对某一特定发射设备的识别。其识别过程不需要对内涵信息进行解译和理解,在无线安全、自组织网、军事目标识别等领域得到了应用。在实际应用中,存在进行跨接收机SEI的需求,即利用多个接收机的接收数据实现对发射设备的识别,例如对广域运动辐射源的识别和多平台协同
波达方向(Direction-of-Arrial,DOA)估计技术是5G与物联网相融合的关键技术之一,超分辨子空间类DOA估计算法实现了较优估计性能,但由于均匀阵列存在孔径较小、阵元间互耦误差较大、阵列分辨力较低等不足,其性能仍有待提高。互质阵列作为一种新型的稀疏阵列,具有等阵元数时阵列孔径大、等孔径时阵元开销数少、阵元互耦误差小、高分辨力等优势,能够获得更优异的阵列信号处理增益,因此结合互质阵列