基于深度学习的语音增强方法研究

来源 :大连理工大学 | 被引量 : 1次 | 上传用户:xuyaya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人们使用最频繁的交流方式,也是人们传递信息最重要的手段之一。语音增强是指在语音信号受到噪声干扰时,通过相应算法抑制噪声,提高信号质量的技术,它在语音通信、人机交互、智能终端、公安侦查等领域具有广泛的应用。在基于深度神经网络(Deep Neural Network,DNN)的语音增强方法中,DNN模型建立了带噪语音特征与干净语音特征之间的映射。为了利用上下文信息,DNN模型将几帧语音特征拼接起来作为输入,这可能会导致语音损伤。而且其在训练时语音特征的各帧之间是独立的,难以学习到邻近语音帧之间的相互关系。长短时记忆(Long Short-Term Memory,LSTM)模型可以学习到语音序列的动态变化特性,在训练时充分利用了邻近语音帧间的相互关系。然而LSTM模型直接将语音特征扁平化输入,无法利用语谱图中时间维度和频率维度的相互关系,也无法利用语音的下文信息。而且其参数量巨大,对计算能力要求较高。针对上述问题,本文研究了基于深度学习的语音增强方法,主要工作内容如下:(1)提出了一种结合注意力机制的DNN语音增强方法。该方法将注意力机制的思想应用到语音增强中,主要思想是在全连接层前添加注意力层,先利用注意力层求出每帧对应的权重,然后将各帧乘以权重后再拼接成长向量输入到DNN模型中。此时注意力层起到了筛选输入信息的作用,可以提高模型的信息利用效率,进而改善增强效果。实验证明所提方法可以有效提升增强后的语音质量。(2)改进了一种基于LSTM模型的语音增强方法。该方法不再仅将当前时刻的语音特征作为模型的输入,而是将当前帧及其前后几帧拼接起来一起输入到模型中,使LSTM模型可以在丰富的上下文信息中进行训练。同时在模型中添加注意力层,用来对输入信息进行筛选,并将全局方差均衡应用到模型中,用于缓解过平滑问题。最后通过实验证明了改进方法的有效性。(3)给出了一种结合卷积神经网络(Convolutional Neural Network,CNN)与门控循环单元(Gated Recurrent Unit,GRU)的语音增强方法。在该方法中,输入语谱图被卷积网络编码为高维特征,随后特征向量经过两层GRU网络建模,最后输入全连接层并经过线性激活生成增强后语音的语谱图。该模型充分利用了CNN的特征提取能力以及GRU网络的时间建模能力。实验证明所提方法可以在较少的参数数量下取得更好的增强效果。
其他文献
3月29日,国家发展和改革委员会副主任、国家能源局局长努尔·白克力与泰国能源部部长阿兰他蓬·甘乍纳拉在北京签署《中华人民共和国政府和泰王国政府和平利用核能合
泊松分布广泛应用于遗传学的遗传图距计算、生物物理学的辐射生物学的定量分析、病毒学中的病毒感染率计算、分子生物学中一个基因文库所需克隆数的估计、PCR扩增片段保真率
随着我国市场经济体系的不断健全,人们的生活水平不断提升,社会大众对于农贸市场消防安全的重视不断提升。在这个过程中,大型农贸市场的数量日益增多,其发展规模不断扩大,这对集贸
体育教师的职业素养对学生体育意识的形成具有潜移默化的作用,优良的体育教师职业素养,能够提高学生对体育的认识,树立学生正确的价值观念,提高学生对体育参与的兴趣,对学生
随着国际经济一体化程度的逐渐加深,市场经济环境越来越复杂多变,企业经营活动的固定和非固定风险也在不断增加,作为市场竞争的主体,企业要想在同行业激烈的市场竞争中处于优
目的:婴幼儿血管瘤(infantile hemangiomas,IH),为婴幼儿最常见的良性肿瘤之一,发病率约5%-10%。IH的发病机制至今模糊,约50%以上的患儿可自行消退,部分患儿在治疗后易出现色
数形结合思想是通过数、形间的对应与互助来研究问题并解决问题的思想。数形结合的途径有三种:以形助数、以数助形、数形互助。数形结合的解题方法具有直观、灵活的特点,是数学
在娃哈哈-达能并购风波中,宗庆后及娃哈哈的“悲情”公关存在哪些可取之处,又有哪些举动仍值得商榷?接下来娃哈哈集团应该采取怎样的公关手段,赢得这场“公关战役”是本文希
为探讨对妊娠期高血压综合征(妊高症)患者实施临床护理干预的方法,给妊高症护理提供基础资料,对干预效果进行了临床观察。将2008年1月至12月来南方医科大学附属深圳市妇幼保健院
目录Ⅰ导言Ⅱ背景A法规构架B技术构架Ⅲ范围Ⅳ厂房和设施A关键区域100级(ISO5)B控制区C清洁区隔离D空气过滤1膜过滤2高效空气过滤器(HEPA)E设计Ⅴ人员培训,资格和监督A人员B