基于生成式对抗网络的语音增强算法

来源 :湖南大学 | 被引量 : 0次 | 上传用户:zpf363188069
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音增强技术在传统通信领域中,可用于增强语音信息的正确性,在新型智能电子设备中,可作为语音识别的前端处理技术,用于增强噪声环境中的语音识别功能。现有的语音增强算法有两种,传统的语音增强算法和基于神经网络的语音增强算法。前者只能在少数的噪声种类下改善语音质量,并且经常会产生多余的音乐噪声。而后者作为一种新方法,具有更高的语音增强性能,本文以神经网络算法为研究对象。
  随着神经网络的发展,生成式对抗网络在图片领域取得了优异成绩,基于生成式对抗网络(Generative Adversarial Network,GAN)的语音增强算法虽然能改善传统算法在多种噪声类型环境下的泛化能力,但是它在低信噪比下的性能仍然较差。本文基于此,为改善语音增强算法在低信噪比下的性能,在算法设计中创新地采用了带梯度惩罚项的Wasserstein生成式对抗网络和条件生成式对抗网络相结合的框架,提出了一种新的语音增强算法,即SEWGAN算法。本论文的主要研究工作分为以下两个部分。
  第一部分是SEWGAN算法的设计。在算法的整体框架中使用条件生成式对抗网络,目的是将带噪语音样本作为额外信息指示生成器产生对应的语音样本,由此解决了原始GAN生成的语音虽然足够清晰,但是内容却和输入的带噪语音无关的问题,提升了算法的实用性。同时,通过在算法的损失函数中使用带梯度惩罚项的Wasserstein生成式对抗网络,更好地实现了生成器拟合纯净语音的分布,因而不仅得到更好的增强性能,还增强了算法对未见噪声环境的适应能力。
  第二部分是SEWGAN算法的实现。并将SEWGAN算法与传统语音增强算法、基于GAN语音增强算法进行性能比较。算法实现是在Linux上使用nvidia-docker搭建的虚拟化操作系统上进行的,采用谷歌公司的Tensorflow开源库搭建网络框架模型,在同一训练集下对SEWGAN算法进行训练,训练过程中使用了层归一化技术对算法进行归一化,同时使用Adam算法加快算法的收敛速度。之后对同一测试集上的样本,分别用SEWGAN算法、多带谱减法、维纳滤波法、对数MMSE估计器以及基于GAN的算法进行增强,之后在Matlab中分别将五种算法增强后的语音进行客观语音质量评估。
  实验结果显示,SEWGAN算法与三种传统算法中性能最好的对数MMSE估计器相比较,在17.5dB、12.5dB、7.5dB和2.5dB的信噪比条件下,分段信噪比的提升分别为1.54%、17.07%、47.98%、148.72%;在对bus、cafe、living、office、psquare五种类型的噪声的抑制中,分段信噪比的提升分别为25.43%、54.98%、39.56%、16.80%、32.84%。在整个测试集上,SEWGAN算法和其中最好的基于GAN的算法相比,感知语音质量评估测度提升了9.26%,语音信号失真改善了5.46%,背景噪声干扰改善了6.80%,总体质量提高了7.14%,分段信噪比测度提高了19.15%。总之,从客观语音质量的改善方面来看,SEWGAN算法的增强性能都有明显的提升,尤其是在2.5dB低信噪比条件下的改善效果最好,比基于GAN的算法在分段信噪比上提升了17.6%。
  综上,SEWGAN算法是将带梯度惩罚项的Wasserstein生成式对抗网络和条件生成式对抗网络共同应用在语音增强的一次成功实践,并取得优异的语音增强性能。
其他文献
认知无线电技术是在软件定义无线电技术的基础之上,以提高频谱资源利用率为目标产生的新技术。同时,伴随着认知无线电技术和无线通信网络技术的发展,提高频谱资源利用率的目标得到了延伸和扩展。认知无线电的目标不再局限于对频谱资源利用率的提高,而是延展到对于无线电环境的探索以及人工智能技术在该方向的应用。
  无线电环境地图是存储无线电环境信息多维表征的数据库,对无线通信网络有重要的支撑作用。认知引擎是一个集分析、处理、推理、决策、执行和学习功能为一体的组件,在其内部触发需要改变无线电资源配置的相应进程,并结合
毫米波暗室作为重要的无线设备测试系统,测试精度和测试静区大小是其主要的性能指标。探头天线作为测试系统中的信号收发部件,对测试系统的性能有着重要的影响。传统低频段探头天线以喇叭天线为主要形式。在毫米波小型暗室中,喇叭天线形式的探头天线难以满足宽角度交叉极化、小尺寸和低剖面等要求。因此,本文开展了差分毫米波探头天线的研究与设计。论文的主要工作内容如下:1.设计了一款基于基片集成波导的差分毫米波磁电偶极
铁路运输凭借其运输量大、可持续性、环境友好型等特点在运输行业占有较大的比重,对我国的经济发展至关重要。铁路运输的高速度、高运载量极易对铁轨表面产生缺陷,铁轨表面缺陷不仅影响到列车的舒适性,严重时会对列车安全产生极大隐患。在列车不断提速的大背景下,不论在精度上还是在速度上,对于铁轨缺陷检测的要求也越来越高。传统的铁轨缺陷检测技术已不能完全满足当今铁路高要求的缺陷检测,越来越多的技术被应用于铁轨缺陷检测中。机器视觉在检测技术中以其无损、自动化、成本低等优点得到广泛利用,本文利用机器视觉技术对铁轨缺陷检测进行了
为了评估无线终端产品在真实传播环境下的通信质量,OTA测试系统需要模拟真实场景的信道特性。目前各研究机构提出了三种空口信道模拟方案,分别为多探头微波暗室法,辐射两步法和混响室法。它们各有优劣,在系统建造成本和测试准确性方面往往不能兼得。针对这些问题,本文提出改造传统微波暗室以模拟无线衰落信道的研究方案,通过在微波暗室中放置一定数量并具有一定形状的相互作用体,来模拟真实的无线传播环境。根据该方案,本
摘要 经济责任审计报告是审计组实施审计后,就审计工作情况和审计结果向派出单位提交的书面报告。如何真实、客观地反映被审计人员任期内工作实绩、揭示工作中存在的主要问题,准确评价被审计对象的工作业绩,为审计成果应用者提供决策依据,是经济责任审计的工作目标,也是经济责任审计报告必须着力解决的现实问题。本文结合实际,就高校内部审计如何撰写经济责任审计报告谈点认识。  关键词 高校内部审计 经济责任审计报告
期刊
《IEC 61000-4-15:2010电磁兼容性(EMC)第4部分试验和测量技术第15节闪烁计功能和设计规范》标准要求在基波频偏、载波含谐波、基波相位跳变,噪声影响等复杂环境下对不同类型的闪变信号进行测量。但是大部分现有的闪变测量方法因为使用的算法动态响应能力不足,无法满足复杂调制情况下的动态闪变测量,而IEC推荐的闪变测量方法只给出了衡量闪变强弱参数的测量原理框图。因此,本文针对IEC标准要求
手机拍照越来越普遍,人们对手机拍摄图片的质量要求也越来越高。但是手机相机由于光传感器尺寸的限制,拍摄的图像质量往往含有较多的噪声,在暗光条件下拍摄时噪声效应尤为明显,这极大降低了人们的视觉体验。因此通过有效的图像去噪技术对噪声图像进行复原显得十分有必要。尽管目前深度卷积神经网算法在图像去噪领域已经取得了巨大的进展,但对手机拍摄的真实噪声图像去噪还有很大的提升空间,且卷积神经网络算法的性能一直受其方形感受野的限制。
  本文研究了众多优秀的卷积神经网络去噪算法,并在核预测网络(KPN)的基础之上,提出
西林注射药剂作为常用的几种药剂之一,其安全性会关系到病人的生命健康安全,然而西林注射液在生产制造中,不可避免的会混入橡胶、玻屑等可见异物,因此在西林注射液生产检测过程中,异物检出率关系到病人生命健康安全,常用药液可见异物检测方法在复杂医药自动化场景下,存在漏检率高和误检率高等问题,本文针对上述问题进行了研究,并通过实验对本文异物检测方法进行了验证。
  首先,介绍了西林注射液检测研究的背景与意义,对西林注射液检测存在的难点进行了介绍,对国内外基于机器视觉开发的药液检测设备进行了介绍,调研了常见的基于
摘要 推行会计集中核算,在规范会计核算行为、防止单位乱收乱支、提高财政资金使用效益等方面起到了积极作用,但其在实际运用中也存在着一些不够完善的地方,如何进一步完善会计集中核算制度已成为亟待解决的问题,只有不断采取措施进行规范和完善,才能充分发挥其应有的作用。  关键词 会计集中核算 规范 问题 对策    会计集中核算是指政府成立会计核算中心,在资金所有权、使用权、财务自主权不变的前提下取消同级机
期刊
心血管疾病对人类健康一直有很大的威胁,由于其偶发性、隐蔽性、突发性等特点,导致了它的发病率和死亡率在众多疾病的前列。按照《中国心血管疾病报告2018》数据显示:该病的患病率仍然呈现上升趋势,预计现在有2.9亿患者,这表明我国每5个人就有1个人是心血管疾病患者。2016年它的死亡率超过肿瘤和其它方面的疾病,仍居首位。当今快的生活节奏和各大公司的加班文化使得当代年轻人的工作压力太大,年轻一代的上班族大