基于DNN与MultiResU_Net的语音增强方法研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:aabbccdd654321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音增强作为语音信号前端算法,主要用于去除语音信号中的背景噪声,提高语音的清晰度以及语音识别的准确度。语音增强技术在助听器、智慧医疗、智能家居等领域有重要应用。深度学习的非线性拟合能力比较强大,因此逐渐取代传统算法并被应用到语音增强中。然而当信噪比较低时,基于深度学习的语音增强算法依然面临着巨大挑战,语音增强效果仍有提升空间,本文基于掩蔽和映射法的语音增强技术,对深度神经网络(Deep Neural Network,DNN)与分辨率残差U型网络(Multiresolution Residual U Network,MultiResU_Net)进行改进,对带噪语音信号进行增强处理。主要研究工作如下:针对低信噪比提出包含语音局部和全局特性的多分辨率耳蜗特征(MultiResolution Cochleagram,MRCG),已被论证是当前最优的语音特征。为了挖掘低信噪比环境下的较清晰语音特性,采用短时谱幅度最小均方误差估计对MRCG中全局特征做降噪处理,进而提出改进MRCG,并将其用于分析时频域的语音特征。本文以改进MRCG为输入特征,以跳变连接的深度神经网络(Skip Connections-DNN,Skip-DNN)为训练网络,为提高网络训练效果以取对数的方式改进源失真比(Source-to-Distortion Ratio,SDR),并以改进SDR为损失函数,以理想比率掩蔽为训练目标,建立语音增强模型;在不同信噪比环境下,利用LibriSpeech ASR语料库中语音数据,对比分析主流特征组合、多分辨率听觉倒谱系数以及改进MRCG作为Skip-DNN输入时的语音增强效果;研究均方误差、SDR和改进SDR作为损失函数对网络训练的影响。研究表明,基于改进MRCG和Skip-DNN的语音增强模型的效果最好;当改进SDR作为基于改进MRCG和Skip-DNN语音增强模型的损失函数时,客观语音评价得分较高。为进一步提高低信噪比环境中语音增强效果,将语音信号经短时傅立叶变换后得到的时频谱图作为网络输入和训练目标,改进MultiResU_Net,采用亚像素卷积层改进上采样过程以恢复网络的细节、将残差路径与解码器端上采样的输出特征以混合通道的方式进行重排以此提高信息融合的能力,建立改进MultiResU_Net语音增强模型。在不同信噪比环境下,利用LibriSpeech ASR语料库中语音数据,研究在不同网络深度和不同窗口尺寸时,改进MultiResU_Net模型的语音增强效果;探讨基于传统MultiResU_Net、全卷积神经网络、U型网络以及改进MultiResU_Net语音增强模型的增强效果。研究表明,当深度为9,窗口尺寸为3×5时,改进MultiResU_Net模型最优;不同信噪比条件下,改进MultiResU_Net语音增强模型比其他模型评价指标得分高,由此可知,本文提出的改进MultiResU_Net语音增强模型的增强效果较好,此方法尤其适用于低信噪比下的语音增强。
其他文献
对于精密仪器来说,工作环境中噪声干扰是影响测量结果的一大因素,使用滤波器对测量信号进行一定的处理是减弱噪声干扰的常用手段,本课题通过对自适应滤波器相关算法和结构的研究,在激光三维小角度测量仪中使用噪声抵消结构的自适应滤波器对PSD信号进行处理,通过实验对比研究了自适应滤波器对PSD信号的滤波效果。利用激光的准直特性发展出的光学自准直原理在测量微小角度方面具有独特的优势,本课题组基于这一原理使用PS
复杂网络是由大量相互连接的节点和具有特定连接结构的边构成。研究复杂网络的某些动态规律时,需要用其内部的状态变量描述,但是在很多实际系统中,由于受多种因素影响无法直接测得系统内部的状态信息,只能利用可测得的输入和输出信息估计系统的状态,再利用估计状态代替真实状态进行相关分析。因此,复杂网络的状态估计问题一直是网络化控制理论研究的重要内容,并得到了学者的广泛关注,但基于部分节点信息(PNBI)的复杂网
当我们观赏建筑时,形象是建筑给人的第一印象,当我们回想建筑时,形象是留在人心中的最终感受。建筑形象如今呈现多样性、多元化发展的局面,如何保持建筑形象设计的新意与活力,同时避免建筑语言混乱是当今要解决的问题。论文在建筑形象整体具有秩序性基础上通过建筑形象局部突变的设计方法研究,使建筑形象具有独特的标识性,防止出现千篇一律的形象,使建筑处于群体中成为视觉焦点,回忆时余音绕梁。基于以上背景,以理论分析结
服装在淘宝、京东等电子商务网站中属于销售量巨大的一个门类,服装图像检索技术能够针对用户的兴趣喜好推荐相同风格特点的衣服,能够增强用户体验,提供更优质的服务。基于文本的图像检索方式需要人工进行标注,不能准确描述服装特点,客户也不能准确描述自己的需求。而基于内容的图像检索方式它能自动提取图像特征,在检索数据集中查找具有相似特征的服装图片,不需要人工标注,检索结果也更贴合用户的需要,因此成为现在图像检索
我国矿产资源丰富,但由于绝大多数矿产资源品位低,在进行水力逐级分选时会产生大量的尾矿,分选后的尾矿作为砂浆被排出,尾矿库就是为了解决尾矿堆积问题而建造的。作为尾矿库的主要构筑物—尾矿坝近年来事故频发,据统计,尾矿库溃坝事故中有一半以上为渗流破坏,其中连续降雨、水力分选等地表径流是诱发尾矿渗流破坏的因素之一。黑龙江省鹤岗市萝北县云山石墨矿矿藏居亚洲第一,其产生的石墨尾矿数量巨大,如果发生尾矿坝渗流破
现代城市居住环境主要处在高容积率、商业化的发展模式之中,中国城市住区从发展之初一直受到国际营造思想和现代生活方式的多元影响,在历经模仿和融合创新之后逐渐形成了独特的住区空间结构脉络。城市住区与城市一样在空间结构的组织上呈现出很多分形特质,本文通过对住区结构的单元空间和演进规则进行研究,提炼其空间结构设计中运用的手法和遵循原则,对当前城市住区的营建策略进行总结和补充。本文从介绍分形理论的相关概念入手
随着装配式混凝土建筑的不断发展,装配式混凝土建筑的预制率和装配率越来越高,建造规模越来越大、预制构件种类也越来越多,从生产入库、运输、抵达施工现场,整个过程涉及PC构件多方多类信息的交换和更迭,且各类信息既繁复又杂乱,很难及时全面收集、分析和利用这些信息,若PC构件在某阶段出现信息偏差,对建造阶段会产生影响,也不利于自动化装配的发展。自动化的装配过程中,不仅仅需要收集装配式PC构件的属性信息,更重
银行数据中心在大数据运维中发挥着重要作用,其中服务器故障检测和温度检测是保障服务器正常运行的关键环节。随着机器视觉技术的快速发展,服务器无人巡检已经成为行业的发展趋势。因此,本文基于机器视觉设计一种服务器故障无人巡检系统,采用高精度视觉传感器和低成本红外成像传感器,实现对服务器故障指示灯状态图像和服务器红外图像的采集,运用图像处理算法,实现对服务器指示灯故障状态和温度的检测,开发服务器无人巡检系统
建筑形象对于建筑而言是具有典型代表的表征视觉元素,一个优秀的建筑,不仅在建筑内部引起共鸣,也要在外部具有良好的知名度。在全球化的背景下,建筑形象呈现多元化且无迹可寻的趋势,建筑师面对形式多样的风格流派,逐渐出现盲目模仿和推崇的趋势,缺乏能够从一个系统性思维出发解释表征现象的解决方法。本研究以建筑形象设计中,构成建筑形象基本元素为主要研究对象,通过结构主义方法论的语境,试图将结构主义理论与建筑形象设
公路等公共交通设施的质量对经济的稳健发展和人民群众的生活水平有着很大影响。随着我国经济蓬勃发展,公路及路网的建设和完善也不断加快,之前建设的一部分公路已经不能满足更高的要求。为促进地区经济发展和人民便捷出行,需要对公路进行改扩建施工。国内大部分工程项目管理模式较为传统,质量控制体系和质量控制策略研究不够充分;而公路改扩建工程施工复杂、工程量大,质量管理与控制难度大,所以要对公路改扩建工程质量控制进