基于稀疏表示和深度学习的有监督语音增强算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:wplyaq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为语言符号系统的载体,语音是人类表达思想和情感的重要工具之一。然而,现实生产生活中无处不在的干扰和噪声使得语音信号经常受到污染,导致语音的质量和可懂度降低,引起人类主观听觉感受的不适,也给语音识别等后端应用带来了挑战。因此,语音增强一直都是语音信号处理领域的一个重要课题,它被具体定义为干净语音在受到来自各种噪声干扰时,利用一定的技术手段抑制和消除噪声,以提升该段语音的质量和可理解性。自20世纪70年代以来,研究学者就开始致力于单通道语音增强算法的研究,相继提出了谱减法、基于统计模型的算法和子空间算法等传统语音增强算法,但这类算法通常需要对语音信号和噪声各自的特性以及彼此是否相关等方面做出一定的前提假设,使其增强性能受到了限制。尤其是在处理非平稳噪声的情况下,往往会引入一些非线性的失真,影响语音的听觉感受以及后端的语音识别编码等处理。近些年来随着科技的进步,语音数据的采集变得快捷方便,基于数据驱动的有监督语音增强算法也应运而生。这类算法的核心思想是通过模型挖掘训练数据的特征和性质,无需依赖任何前提假设,使得这类方法能够适用于相对复杂的声学环境。基于此,本文结合近些年迅速发展的稀疏表示理论和深度学习方法,针对单通道语音增强的有监督算法进行了研究,主要的研究工作如下:首先,在基于互补联合字典学习和稀疏表示的增强算法的基础上进一步考虑在两种噪声共存的嘈杂环境下的语音增强任务。在字典学习阶段,用带噪语音到语音、噪声之间的映射关系约束联合字典的学习,使得字典原子不仅挖掘出信号的谱特征,同时也表征了信号之间的映射关系,丰富了字典的完备性并增强了字典之间的区分性,缓解源混淆和源失真问题。在增强阶段,考虑到在不同条件下各路稀疏表示恢复得到的信号的有效性存在差异,基于估计信号中的归一化残余混淆成分设计加权权重,进行多路估计信号的融合,以进一步提升语音增强的效果。其次,目前大部分的深度学习算法采用的都是频域特征,如短时傅里叶变换幅度谱或者是对数功率谱,而增强语音的相位则由带噪语音的相位来代替,使得增强语音中相位和幅度存在一定的不匹配,导致“不一致语谱”问题。然而与时域采样点相比,时频点能够反映出语音信号在相应频率分量上的能量,而且语音的谐波特征和共振峰等特性在时频域上往往更加明显。针对这一问题,本文提出了基于全卷积网络的端到端单通道语音增强算法,网络模型主要由编码器和解码器构成,但在编码器的输入端和解码器的输出端分别加入了基于卷积层设计的伪傅里叶变换层和伪逆傅里叶变换层,从而引入频域信息以便于网络更好地挖掘语音的特性。此外,采用带门限控制的卷积层搭建编码器和解码器以扩大感受野并更好地控制信息在层次结构中的传递,在编码器和解码器中间加入时域卷积模块以更好地学习语音的长时记忆性。此外,由于提出的端到端模型能够直接以整条语句为单位进行语音增强,所以采用了不同的基于语句的优化目标来训练提出的网络,以此探究代价函数对增强性能的影响。
其他文献
普罗布考最初作为一种降血脂药于1977年首次在美国上市。近年来大量研究表明普罗布考具有抗氧化,稳定和消退斑块,改善血管内皮功能,抑制血管成形术后再狭窄等作用,故其在临床
儿童骨骺损伤是一种漏诊及误诊率较高的骨骼创伤,早期诊断对该疾病的预后非常重要。本文就目前临床常采用的无创性影像学方法诊断儿童骨骺损伤的研究进展进行综述。
随着视频 MP3的普及和在播放效果上的不断提升,加上这种产品的价格和真正的 MP4价格差距较大,用户更易于接受。蓝魔在这一种类上的产品不少,自从推出RM 系列以来,因其具备出
鼻为面部空窍,上及脑府,旁通诸经,即《灵枢》所谓“十二经脉、三百六十五络,其血气皆上于面,而走空窍”者也。利用鼻窍治病的方法即为、“鼻治法”,它包括药疗、针疗、按摩
西藏铁路的通车,为很多对西藏神往已久的人提供了一个廉价、舒适和方便的旅游方式。虽然一路上有不错的高原风光,不过旅途上的无聊时光仍然较长。要想更好地享受这一舒适的旅
<正> 瞬息万变的IT业天天都变着法地玩时尚游戏,笔记本电脑作为IT业的焦点,更是铆足了劲追赶潮流,今天色彩造型竞相扮酷,明天模特儿、形象代言人漫天飞舞,过足了时尚的瘾。可
下课了,同学们蜂拥而出,聚集在操场上。大家三人一组玩儿呼啦圈,比谁转的圈数多。比赛开始了,刘婷婷把呼啦圈放在腰部,用手一转,随即扭动腰肢。呼啦圈在她腰间转了一网又一圈,一点也