基于深度神经网络的语音增强算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hu_20092009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音增强,也称语音降噪,目的是减弱与抑制背景噪声对目标语音的干扰,从而提高语音的质量和清晰度。语音增强技术普遍运用于人们生活和工作中,是语音信号处理中尤为重要的部分。传统的单声道语音增强方法需要提前对语音与噪声信号做出假设,这导致它们的降噪性能有一定的限制。近年来随着信息网络的普及,数据集规模的增大以及计算机运算速度的提升,深度神经网络的优势得到了体现。深度神经网络相比于传统的语音增强方法的优势在于其不需要提前做出假设。本文主要的研究内容是采用深度神经网络的方法实现语音增强,利用深度神经网络强大的数据分析能力对带噪语音到纯净语音的映射关系进行拟合。整个语音增强系统分为准备阶段、训练阶段和增强阶段。准备阶段作为网络训练的前期处理工作,生成大量平行的语音数据并提取语音信号的特征,训练阶段通过反向传播过程迭代更新深度神经网络的参数,增强阶段将带噪语音通过已训练的网络进行处理,得到增强语音信号。考虑到人耳对语音的非线性感知能力,本文将语音对数功率谱的映射模型作为本文的基线系统。针对部分语音失真的情况,本文提出将语音的幅度谱特性与对数功率谱特征联合的方法。在深度神经网络的输入端拼接这两种特征,令网络同时学习和优化这两种不同的目标,这使得网络能学到不同特征之间的差异和共性,在增强阶段通过后处理方法融合两种特征,得到最终的增强语音信号。实验表明,特征联合优化的方法较明显地提高了低信噪比带噪语音的语音质量和清晰度,缓解了语音失真的情况。为进一步提高降噪性能,本文还采用跳接思想,即将原始输入数据跳跃地堆叠到每个隐藏层输出端,与输出做拼接处理,再作为下一个隐藏层的输入。这使原始输入数据得以重复利用,每个网络层学习到的特征更加复杂多样化。最后本文结合上述思想提出一种方案,即在联合优化语音对数功率谱和幅度谱特征的同时,将输入的对数功率谱特征进行跳接堆叠。该方案使含不匹配噪声的带噪语音的PESQ(Perceptual Evaluation of Speech Quality)结果提高了0.47,表明语音质量有明显的改善,也体现出改进的增强系统具有良好的降噪能力和泛化能力。
其他文献
根据《江西省人民政府学位委员会工作章程》,江西省人民政府学位委员会第二届委员任期已满。经省政府研究决定,现将江西省人民政府学位委员会第三届委员名单通知如下:
"中观"和"无我"是佛教思想中的两个重要概念,原始佛教时期的思想中就蕴涵有这两个概念的内涵,龙树时期,正式从"中观"原则来理解"无我"思想实现了两者的融合统一,汉藏两地佛教从不同方
2007年12月18日,南昌市麦园垃圾处理场填埋气发电厂胜利竣工并一次性发电并网成功,这个项目的建成填补了我省生活垃圾填埋气资源化利用的空白,为节能减排,促进循环经济起到了示范
随着工业化城市化的快速发展,我国在经济活动过程中消耗了大量的化石燃料和含氮化肥,导致近地面臭氧浓度迅速增加。基于生态学的初步研究结果,臭氧浓度超过一定阈值时,便会降
上饶是人力资源大市,常住人口648万人,农村人口占总人口的三分之二,外出务工农村劳动力达142万人。受金融危机影响,岁末年初的返乡农民工多达11万人。面对突然而来的大量返乡农民
为了明确前陆盆地山前冲断带构造对煤层气富集的控制作用,以澳大利亚鲍恩盆地为例,利用地震资料解释结果和煤层气试验分析数据,对构造控气模式进行了精细研究和量化表述,探讨
2008年是很不寻常、极不平凡的一年。一年来,全省接连经历诸多难以预料和罕见的重大挑战和考验。面对严峻形势,全省各地各部门在省委、省政府的坚强领导下,以深入开展学习实践科