基于深度神经网络的语音增强算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：hu_20092009

【摘要】

：

语音增强,也称语音降噪,目的是减弱与抑制背景噪声对目标语音的干扰,从而提高语音的质量和清晰度。语音增强技术普遍运用于人们生活和工作中,是语音信号处理中尤为重要的部分

【作者】

：

张馨

【出处】

：

哈尔滨工业大学

【发表日期】

：

2004年期

【关键词】

：

语音增强算法深度神经网络特征联合特征堆叠

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语音增强,也称语音降噪,目的是减弱与抑制背景噪声对目标语音的干扰,从而提高语音的质量和清晰度。语音增强技术普遍运用于人们生活和工作中,是语音信号处理中尤为重要的部分。传统的单声道语音增强方法需要提前对语音与噪声信号做出假设,这导致它们的降噪性能有一定的限制。近年来随着信息网络的普及,数据集规模的增大以及计算机运算速度的提升,深度神经网络的优势得到了体现。深度神经网络相比于传统的语音增强方法的优势在于其不需要提前做出假设。本文主要的研究内容是采用深度神经网络的方法实现语音增强,利用深度神经网络强大的数据分析能力对带噪语音到纯净语音的映射关系进行拟合。整个语音增强系统分为准备阶段、训练阶段和增强阶段。准备阶段作为网络训练的前期处理工作,生成大量平行的语音数据并提取语音信号的特征,训练阶段通过反向传播过程迭代更新深度神经网络的参数,增强阶段将带噪语音通过已训练的网络进行处理,得到增强语音信号。考虑到人耳对语音的非线性感知能力,本文将语音对数功率谱的映射模型作为本文的基线系统。针对部分语音失真的情况,本文提出将语音的幅度谱特性与对数功率谱特征联合的方法。在深度神经网络的输入端拼接这两种特征,令网络同时学习和优化这两种不同的目标,这使得网络能学到不同特征之间的差异和共性,在增强阶段通过后处理方法融合两种特征,得到最终的增强语音信号。实验表明,特征联合优化的方法较明显地提高了低信噪比带噪语音的语音质量和清晰度,缓解了语音失真的情况。为进一步提高降噪性能,本文还采用跳接思想,即将原始输入数据跳跃地堆叠到每个隐藏层输出端,与输出做拼接处理,再作为下一个隐藏层的输入。这使原始输入数据得以重复利用,每个网络层学习到的特征更加复杂多样化。最后本文结合上述思想提出一种方案,即在联合优化语音对数功率谱和幅度谱特征的同时,将输入的对数功率谱特征进行跳接堆叠。该方案使含不匹配噪声的带噪语音的PESQ(Perceptual Evaluation of Speech Quality)结果提高了0.47,表明语音质量有明显的改善,也体现出改进的增强系统具有良好的降噪能力和泛化能力。

其他文献

江西省人民政府办公厅关于印发江西省人民政府学位委员会第三届委员名单的通知

根据《江西省人民政府学位委员会工作章程》，江西省人民政府学位委员会第二届委员任期已满。经省政府研究决定，现将江西省人民政府学位委员会第三届委员名单通知如下：

期刊

人民政府办公厅委员会江西省学位名单印发省政府章程

“中观无我”思想发展述略

＂中观＂和＂无我＂是佛教思想中的两个重要概念,原始佛教时期的思想中就蕴涵有这两个概念的内涵,龙树时期,正式从＂中观＂原则来理解＂无我＂思想实现了两者的融合统一,汉藏两地佛教从不同方

期刊

佛教中观无我发展

“研究性学习”与教师素质提升

期刊

中学教育研究性学习教师素质课程教学方式知识结构