基于深层神经网络多目标学习的单通道语音增强研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:unix55555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
噪声信号的干扰一直是困扰我们日常生活的问题,并且随着语音类电子产品地广泛普及,这类问题的影响依然没有减弱,因此获取高质量的目标语音信号对于提升听觉感知质量是十分必要的。近年来,深度学习方法的引入显著地提高了语音增强方法的降噪性能,然而如何提高深度学习语音降噪方法的泛化性和高效性是当前研究中亟待解决的关键所在。为了更好地解决真实场景中的语音降噪问题,论文以基于深度学习的单通道语音增强为研究方向,从降噪性能、泛化性以及运算量优化这几个方面开展了研究工作,具体内容如下:(1)对于语音降噪任务而言,如果可以事先知道语音产品的应用场景以及可能出现的噪声类型,那么就可以进行针对性地优化并提高语音增强算法的降噪性能。因此,针对特定应用场景的语音降噪任务,提出了一种基于环境注意力引导的分支降噪神经网络模型,通过引入先验的环境信息来进行降噪。在所提出的“分类+增强”的多目标学习框架中,首先训练了一个噪声分类网络来区分每帧信号的噪声类型,并以此为引导来训练降噪网络的不同分支,使其逐渐学习到针对不同噪声的降噪能力。同时,采用了“专用支路+通用支路”的处理模式,既保留了特定噪声特定处理的策略,又充分利用了不同噪声类型之间的互补性优势,使得模型能够获得最大化降噪性能收益的同时,也改善了模型的泛化性能。实验结果也表明,所提出的模型不仅在已知的噪声环境中实现了语音质量和可懂度的提升,而且在一些未经训练的突发噪声环境中也可以获得不错的降噪性能表现。(2)当应用场景不确定时,就需要一个通用的语音降噪模型来应对任何可能出现的噪声类型。捕获语音信号的时序依赖性和多目标增强是提高深度学习语音降噪模型泛化性的两个有效手段。因此,针对通用的语音降噪任务提出了一种能效比更高的多尺度卷积时序建模方法,设计了一个前向堆叠的多尺度时间卷积网络(Multi-Scale Temporal Convolutional Network,MS-TCN)模型,在残差模块中进行更细粒度的多尺度时频特征分析。为了利用频谱映射和掩蔽目标之间的互补性,MS-TCN模型对理想比值掩蔽和对数功率谱两个目标进行了联合学习,进一步提高了模型在不匹配测试环境中的降噪效果。实验结果表明,与经典的递归结构的模型相比,所提出的MS-TCN模型不仅在降噪性能方面有优势,而且模型的参数量和运算量也更小。(3)针对通用的语音降噪模型在低信噪比噪声情况下性能表现较差的问题,同时对带噪语音的相位和幅度进行增强是改善性能的有效手段。论文提出了一种考虑了相位增强的空洞卷积网络(Phase-Enhanced Dilated Convolutional Network,Phase DCN)模型,通过对复数谱的映射来实现同时增强带噪语音幅度和相位的目的。Phase DCN模型通过两个多尺度支路分别对复数谱和理想比值掩蔽进行建模,以实现两者的优势互补。在多目标联合学习过程中,将复数谱作为主要目标,理想比值掩蔽作为辅助目标,利用辅助路径的中间特征生成注意力门控因子用于区分不同频点上的语音或非语音分量,从而更好地对复数谱进行映射。实验结果表明,所提出的Phase DCN模型不仅实现了更好的相位估计精度和降噪效果,而且保证了其在说话人、噪声和信道不匹配的情况下更好的泛化性表现。(4)考虑到通用语音降噪模型部署平台的不确定性,实现降噪效果和高效性的平衡也是一大挑战。在前面工作的研究基础上,进一步利用了多目标学习对模型泛化能力的贡献,提出了一个能效比更高的两级建模的语音增强模型(Multi-Target in Multi-Stage,MT-in-MS)。所提出的MT-in-MS模型将掩蔽目标、映射目标和统计模型语音估计器融合起来,采用两级建模的方式对三个目标进行联合学习和优化,既保留了Phase DCN在相位增强和降噪性能方面的长处,又集成了传统统计模型性能鲁棒的优点,最大程度地发挥出它们的互补优势。实验结果表明,与目前最先进的两种语音增强模型相比,MT-in-MS模型不仅实现了在说话人、噪声和信道不匹配的情况下的降噪性能优势,还进一步降低了50%的模型参数量以及至少80%以上的运算量。论文通过对基于深度学习的单通道语音增强方法的深入分析和研究,针对目前的技术瓶颈和痛点,提出了新的解决思路和方案,进一步提升了算法的降噪效果、泛化性以及高效性。
其他文献
电催化氮气还原(NRR)和氧气还原(ORR)可以将N2和O2分别转换为NH3和新能源,对人类的生存和可持续发展具有重要的意义。当前,工业上的合成氨技术是采用成熟的Haber-Bosch工艺,而该技术需要在高温(300-500 oC)和高压(>200 atm)条件下才能进行,使得整个过程的年能耗占世界年能耗的2%,同时还伴随着每年近400兆吨的CO2排放。室温条件下的NRR技术相比能耗严重的Habe
学位
气体传感器可用于易燃易爆和有毒有害气体的监控及检测,在污染治理、危害预警以及安全防护等应用场景中发挥着重要的作用。在物联网快速发展的背景下,迫切需要开发低功耗且高性能的气体传感器。电阻型气体传感器因具备体积小、成本低、易集成等优点比较适合应用于物联网领域。然而,传统金属氧化物气敏材料通常需要在高温(200-600℃)条件下工作,严重制约其在低功耗集成器件中的大规模推广应用。二维纳米材料的发现推动了
学位
柔性电容式压力传感器能将外部力刺激转化为电容信号,且兼具良好的柔韧性,在人机交互界面、健康监测、电子皮肤等领域有着重要的应用。本研究围绕基于双电层(EDL)传感机理的离-电式压力传感器,以多孔复合离子材料为传感层,通过传感机理分析、有限元仿真和实验研究,深入探讨了多孔结构的孔隙率及压缩模量对传感器灵敏度的影响机制,为离-电式电容压力传感器的灵敏度提升提供新的策略,并为其在可穿戴、可涂覆以及透明传感
学位
多孔介质钝体绕流与对流换热广泛存在于自然界和生物工程、能源与化工、航空航天、核工程和海洋工程等工程领域,涉及多孔介质内部及周围复杂流动与传热等基础性问题,因此,对多孔介质钝体相关流动和传热的深入研究具有重要的学术意义和工程应用价值。虽然学术界对此类问题的研究逐渐增多,但对多孔介质圆柱绕流和混合对流换热的研究仍不够完善,其所蕴含关于流动和传热的物理机制仍不是很清晰。本文基于有限体积法,较为系统地研究
学位
手性磷化合物广泛存在于自然界中,具有重要的研究价值,在药物化学、有机合成化学、生命科学等领域具有重要的应用价值和潜能。因此,手性磷化合物的合成方法学研究一直是有机合成中的热点。随着不对称催化蓬勃发展,不对称氢官能化已经成为现代有机合成的重要组成部分,是制备手性化合物最为有效的方法之一。本论文主要研究了钯催化炔烃和联烯的不对称膦氢化反应,高效、高对映选择性的合成具有磷手性的烯基次膦酸酯和碳手性的烯丙
学位
随着经济发展、城市规模的日益扩大、城市污水处理效率逐年提高,城市生活污水处理厂产生了大量副产物—市政污泥。在现有处理处置方式与城市发展不匹配的严峻形势下,如何妥善处理处置污泥已成为当前城市环境污染治理领域的核心议题。与此同时,由于全球磷储备的迅速枯竭,采取热解手段回收污泥中丰富的磷资源并作为一种新型肥料越来越受到业界关注。本研究以城市污泥生物炭中磷的高效应用为目标,以热解改性为主要手段,全面揭示污
学位
利用光能驱动的光催化反应处理水中污染物以及使用电催化还原CO2(CO2RR),被认为是高效、低能耗且环保解决水污染问题和温室效应的有效方式。其中催化剂的设计则是光/电催化反应的关键问题。作为一种典型的金属大环配合物,金属酞菁材料具有可见光和近红外吸收能力强、载流子迁移率高、稳定性高、易制备、电子离域充分、中心金属活性高等特性,是目前被广泛研究的光/电催化材料之一。其中,结构简单的酞菁分子合成简单、
学位
广泛使用抗生素治疗人类、动物和植物感染性疾病,导致水环境中抗生素污染严重,且对公众健康和水生生物构成潜在威胁。因此,抗生素污染问题在世界范围内受到高度关注。本研究旨在调查我国华南、华北两座重要城市的40种抗生素的污染特征,评估抗生素的水环境生态风险,并在此基础上开发高效降解环境浓度抗生素的光催化技术。华南、华北区域内的两座城市由于气候和经济发展水平不同,抗生素的污染种类、浓度和时空分布特点存在差异
学位
癌症已成为对人类威胁最大的疾病之一,近年来癌症的发病人数与致死率迅速增长。晚期癌症致死率高的主要原因是恶性肿瘤发生了扩散与转移。因此,对肿瘤转移的早期诊断是提高治疗效果、降低死亡率的有效手段。循环肿瘤细胞作为恶性肿瘤的“标志物”之一,对其进行检测可以在较早阶段诊断肿瘤转移,因此在肿瘤检测中意义重大。传统的循环肿瘤细胞检测方法利用免疫磁珠对细胞进行特异性捕获,并借助磁场实现对肿瘤细胞的富集,然而该方
学位
计算全息(Computer-generated holography)因其强大的光场重构能力,被视为是一种极具潜力的显示技术。无论是裸眼三维显示,增强现实还是虚拟现实,计算全息都提供了一种行之有效的解决方案。基于全介质超构表面(Metasurface)的计算全息在原有技术的基础之上,增加了大视场角、高集成度和高效率等优势。然而,现有基于超构表面的计算全息在投影图像质量、信息密度和应用场景等方面还存
学位