基于生成对抗网络的端到端多语音分离技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:tyycyf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能时代的到来,越来越多的智能设备走进人们生活,语音作为人机交互的重要接口,为生活带来了巨大便利,因此众多学者将语音处理的相关技术引入各个领域。但是目前的语音识别等技术都是建立在实验环境下,而在嘈杂的实际应用场景往往得不到好的效果。因此能够去除背景噪声或其他无关人说话干扰的语音分离技术有很大的应用空间。生成对抗网络作为一个新兴的深度学习网络,在原有的单一深度学习模型的基础上,增加了判别模型,提高模型的学习能力。目前在图像生成领域,生成对抗网络有着非常突出的成绩,但是在语音分离问题上尚未有所开发,本文首次将生成对抗网络应用于语音分离问题。同时目前语音分离技术一般都是基于预先提取的音频特征作为网络输入,忽略了在提取特征的过程中造成语音高频部分以及相关性信息的损失,以及在变换过程中可能会引入虚假信息从而对语音分离的性能造成影响。所以本文采用生成对抗网络,以原始语音信号的波形作为输入,实现端到端的语音分离模型,并在原有网络的基础上从以下几个方面对网络性能进行提升。1、针对传统声学特征提取方法需要经过傅里叶变换、离散余弦变换等操作,提取复杂特征作为输入的过程中会造成能量损失的问题,本文选择以语音信号的原始波形作为生成对抗网络的输入,通过模型来学习语音信号深层次的声学特征。2、提出基于生成对抗网络的端到端多语音分离框架。以在图像生成领域取得新突破的生成对抗网络为原型,采用深度卷积生成对抗网络DCGAN来提高网络稳定性,全卷积的网络结构提高了音频特征在时间上的紧密相关性,减少训练参数并缩短了训练时间。同时根据语音分离问题的特点加以改进,弥补了原有网络的不足进一步提升分离效果并根据实验结果进行分析。3、为解决多语音分离问题,本文采用掩码循环的方式建立隐层变量与多分离目标之间的互信息。同时根据生成对抗网络生成模型与判别模型之间相互博弈的关系,将判别模型中判为真的数据反向传播作为生成模型的标签,实现数据扩张。一方面充分利用数据,完善训练效果,另一方面也解决了生成对抗网路中存在的不平衡问题。本文研究发现,生成对抗网络在经典语音分离模型中增加了判别模型,能够有效地提高分离的性能。应用于图像生成领域的生成对抗网络在语音分离领域同样取得了很好的效果。生成对抗网络在语音分离问题上的成功应用,也为语音信号处理领域提供了新思路。
其他文献
目的探讨糖尿病与非糖尿病持续性非卧床腹膜透析(continuous ambulatory peritoneal dialysis,CAPD)患者容量负荷状况及其相关因素。方法对2015年10月至12月在本院门诊随访的
高速混合机是高分子材料成型加工等行业的必备设备之一。介绍了高速混合机的基本工作原理、在各行业的应用及研究情况和应用展望。
小儿肺炎支原体感染可导致过敏性紫癜,过敏性紫癜的诊治中应注意检测MPIgM,以利早期确诊,缩短病程,改善预后。
改革开放以来,国家现代化建设分别遭遇如何实现行政权合法化、法制统一、执政法治化和宪法至上等系列问题,法治中国建设随着这些问题的呈现而渐次推进,先后经历行政法治、立
以北京市科学技术研究院博士后工作站为研究对象,通过问卷法、访谈法获取第一手调查数据,对其博士后培养工作进行了深入研究。在总结北科院博士后发展的基础上,通过对近90名
目的:探讨颈椎硬膜外腔大剂量注射药物治疗椎动脉型颈椎病的效果。方法:180例患者被随机分为治疗组(90例)和对照组(90例),对照组采用静脉滴注药物、颈椎牵引、推拿的方法治疗