基于深度学习的语音增强方法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:edcujmtgb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音增强技术在语音信号处理领域一直受到广泛关注。作为语音前端处理技术,语音增强可以提高后端语音识别、语音交互、语音通信等系统性能,在视频在线会议、助听器、智能家居、智能汽车等应用场合有广泛。常见的基于频谱映射和基于掩膜的两大类语音增强算法都有不足之处:多帧到一帧的掩膜回归更多依赖神经网络学到的统计信息,而忽略了捕捉二维时频(Time-Frequency,T-F)谱图上帧与帧之间的关系和二维信息;频谱映射虽然能很好的捕捉二维信息,但频谱相对掩膜缺少一定的人工先验知识。本文综合以上两点提出基于掩膜映射的语音增强,实现了基于该建模思路的单通道语音增强算法:基于混合空洞卷积网络(Mask-Mapping-based Hybrid Dilated Convolutional Network,MM-HDCN)的语音增强算法和基于残差密集网络(Mask-Mapping-based Residual Dense Network,MM-RDN)的语音增强算法。为了使得映射网络适应二维T-F谱图的多纹理特质,基于混合空洞卷积网络的语音增强算法以U-net为基础结构,在卷积编译码器(Convolutional Encoder-Decoder,CED)中引入混合空洞卷积,在获得极大感受野的同时消除棋盘效应并降低模型参数量。仿真实验结果表明,在匹配声学环境和非匹配声学环境下,掩膜映射能有效对语音进行增强,并且相对多到一掩膜回归和频谱映射表现更佳,能有效提升语音的感知质量和可懂度,在此基础上的MM-HDCN兼具了鲁棒性、泛化性和轻量化。着眼于特征的充分复用,基于残差密集网络的语音增强算法使用残差密集模块(Residual Dense Block,RDB)来提高神经网络的建模水平。RDB可以通过密集连接层、局部特征融合和局部残差学习形成连续存储机制,还可以使得训练过程稳定。结合RDB提出的MM-RDN同样将对数功率谱(Log-Power Spectra,LPS)作为二维特征,对理想比率掩膜(Ideal Ratio Mask,IRM)进行掩膜映射建模得到语音增强模型。仿真实验证明窗长对于掩膜映射算法的增强效果具有正向作用,并且,MM-RDN有效地利用了LPS的二维信息和来自于IRM的人工先验信息,相对MM-HDCN和其他已知算法在评价指标上有较为明显提升,能有效提升语音的信号质量、感知质量和语音可懂度。相比之下,MM-RDN具有更好的综合表现,但是MM-HDCN具有非常轻量化的结构。总体来说,两个算法在语音增强上都具有不错的鲁棒性和泛化性,超越了现有算法。
其他文献
目前我国地沟油回流餐桌现象仍然存在,一些不法商贩受利润驱动非法收集“地沟油”,并进行二次加工,导致地沟油或明或暗地流向食用油领域,严重损害了人民群众的生命安全。实际上地沟油作为废弃物除了回流餐桌这一负面回收利用去向外,还具有正面回收利用价值,生物柴油便是地沟油主要的资源再利用去向之一。2018年6月,我国上海市为了支持地沟油制生物柴油,发布了《上海市支持餐厨废弃油脂制生物柴油推广应用暂行管理办法》
随着经济全球化不断深化和各国市场的开放,发达国家为获取最大化利润将低附加值的生产环节外包给生产要素成本较低的发展中国家,仅保留高附加值环节的生产。在此背景下产品的生产按附加值的高低被分布在比较优势不同的国家,形成了全球价值链的国际分工。改革开放以来,中国把握住全球化产业转移的机会,利用劳动力、资源等要素禀赋的比较优势进入全球价值链的国际分工中,以代加工的贸易形式,逐步发展成为全球制造中心。中国作为
2019年10月召开的党的十九届四中全会上审议通过了《中共中央关于坚持和完善中国特色社会主义制度、推进国家治理体系和治理能力现代化若干重大问题的决定》,为新时代我国的治理体系和治理能力现代化刻画了总纲领、同时也开启了我国国家治理体系和治理能力现代化的新征程。大连市中山区,作为大连中心城区的核心区,是大连的“窗口”,不论是外在的形象,还是内在的品质,一直走在大连乃至整个东北的前列。随着区域内社会、经
目前,全国可采森林资源不断缩减,国有森林资源资产流失现象严重。造成这种现象的原因是国有森林资源有偿使用制度尚未建立、有偿使用方式不规范。为此迫切需要建立国有森林资源有偿使用制度,该制度正当性具有公共物品理论、资源配置理论和公共信托理论等理论支撑。国有森林资源有偿使用制度的研究离不开其内容,梳理了国有森林资源有偿使用的主客体,方式和程序。首先,从立法上分析,国有森林资源有偿使用直接相关的法律规范极少
土地资源是人类赖以生存和发展的最基本的自然资源,在经济和社会发展中扮演着至关重要的角色。然而,随着经济增长多元化和社会发展城镇化进程的快速推进,人类社会对土地资源的需求与土地资源数量不可再生、不可替代的特性之间的矛盾日益凸显。建设用地无序扩张、水土流失和土壤污染等问题严重威胁着土地资源的可持续利用,也制约着经济社会的可持续发展。此外,长江经济带作为中国经济发展最活跃的地区之一,具有重要的战略地位。
商标的经济价值在经济全球化的今天被无限放大,很多人都相信品牌的力量。在此过程中,姓名权与商标权制度的发展产生了十分紧密的联系。生活中很多以姓名命名的商标,其中名人姓名注册为商标,往往代表在某个领域的巅峰。但是,正是由于名人姓名的背后有着很强的经济价值,名人的姓名被商家注册为商标,具有四两拨千斤之效果,微乎其微的成本带来了巨大的商业利益。导致了商家恶意抢注的行为屡禁不止。我国职能部门在解决名人姓名权
二十一世纪以来,我国人寿保险行业发展迅速,但随着国内寿险公司数量的逐渐增多,寿险市场的竞争也日趋激烈。各家寿险公司在不断完善营销管理体系的基础上,努力开拓国内寿险市场,以实现保费收入的持续增长。在我国寿险市场中,以中国人寿、平安人寿和太平洋人寿为代表的大型保险集团公司长期处于行业领先地位,竞争优势明显。与之相对的是众多市场份额占比较低的寿险公司,面对市场巨大的竞争压力,保费收入增长日益艰难,公司发
新一代移动通信系统信道参数的测试需要一套多通道宽带信道测量系统,目前国外现有的测量设备大都是由性能优越的分立的仪器仪表组合搭建而成的,有一定的实际效果,但是成本较高。而同时,国内虽然也开展了相关的研究与测试,但起步较晚,仍需进一步的发展与提高。针对这一实际需求,本文对一款应用于5G信道测量系统的500 MHz~19 GHz的宽带发射机进行了设计与研究。本文完成的主要工作有:1、确定了宽带发射机的系
近些年来随着电子竞技赛事的蓬勃发展,其多元化的赛事体系、正规的俱乐部制度、多样性的商业模式吸引了社会各界的广泛关注。《英雄联盟》作为目前国内最具影响力的电竞赛事之一,是电竞文化发展的“排头兵”。其在社交媒体平台中充分利用了新媒体传播优势,形成了具有独特风格的传播策略,激活了电竞文化的活力,打破了传统媒体时代被动塑造的刻板印象,得到了社会大众的广泛关注和认可,让《英雄联盟》以一种新兴的文化产业和体育
体育电子游戏自从1958年首次出现之后,一直是电子游戏行业最成功的类型之一。时至今日,体育电子游戏已经不简单的是一种游戏,更是一种新的体育赛事。随着体育电子游戏的不断发展成熟并形成自己的赛事,现在的体育电子游戏已经是人们生活中很重要的一部分,尤其是对于青少年而言。上个世纪末,我国才开始陆续有关于体育电子游戏的研究,但对于体育电子游戏的系统性研究几乎空白。因此本文以体育电子游戏及其赛事为研究对象,重