基于深度神经网络的欠定语音分离方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:jay2048
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人们交流信息常用的媒介之一,在实际环境中,其不可避免的会受到噪声或其它语音等的干扰,进而影响交流的质量,因此语音分离技术应运而生。语音分离就是指从混合语音信号中分离出各路语音源信号的过程,其在语音识别、说话人识别和音频检索等语音处理系统中起着重要的作用。本文致力于研究欠定条件下的语音分离问题,具体地说是单通道语音分离问题。本文的主要研究工作分为以下几个方面:(1)本文给出一种将相位敏感性时频模板和深度神经网络相结合的单通道语音信号分离方法。该方法的网络输入为混合语音信号的短时傅里叶变换幅度谱特征,网络目标输出为给出的相位敏感性时频模板,其中加入了语音源信号和混合语音信号的相位信息。训练阶段,用网络来学习给出的相位敏感性时频模板;在测试阶段,用网络的输出和混合语音信号相位来重建语音源信号。相比于传统的基于深度神经网络的单通道语音分离方法,该方法给出了相位敏感性的时频模板,通过引入语音信号的相位信息,可以更好的完成语音分离。(2)考虑到复数时频模板可以同时恢复语音信号的幅度谱和相位谱,本文给出一种将复数时频模板同深度神经网络相结合的单通道语音信号分离方法。该方法使用混合语音信号幅度谱作为网络的输入特征,复数时频模板作为网络的目标输出。在训练阶段,由于该模板计算较为复杂,直接用深度神经网络预测不够准确,本文对目标函数做了改进,在其中加入了相位约束,给出了具有相位限制的目标函数,提高了相位估计的准确性。在测试阶段重建语音源信号的过程中,使用估计出的语音源信号相位。相比其他方法,该方法准确的估计出了语音源信号相位,有着更好的分离结果。本文在TSP语音库上进行了一系列计算机仿真实验,将给出的两种方法同现有的一些算法做了比较,实验结果表明本文给出的方法有着更好的语音分离性能。
其他文献
社会组织党建工作是党的建设工作的重要组成部分。习近平总书记对社会组织党建工作高度重视,多次就加强社会组织党建工作的重大意义、基本原则,社会组织党组织的功能定位、管
超大规模集成电路技术的发展以及宽带无线通信技术的不断进步使得人们对于多媒体技术的需求日益迫切,对于视频编码压缩等技术的要求也日益提高,如何有效的压缩各类视频、图像
在片上网络(Networks-On-Chip,NoC)研究中,NoC的流量特性对网络性能有着极大的影响,研究片上网络的流量模型意义重大。在已有的NoC流量模型研究中,主要有传统短相关流量模型
乡村是中国发展的根基,是孕育中华文明的摇篮,是亿万中华儿女的精神家园。伴随改革开放取得的重大成功,农村发展的节奏明显落后于城市,“三农”问题日益凸显。因此,党的十九大在经过深思熟虑后英明提出乡村振兴战略,这也是基于我国农村发展的现实需要而制定的一项国家发展战略,以及是现阶段建设美丽乡村的题中要义。同时,十九大上还提出“加强农村基层基础工作,健全自治、法治、德治相结合的乡村治理体系”。乡村治理水平的
随着互联网和移动互联网的快速发展,不仅家庭和企业的WLAN网络在快速增长,电信运营商也开始在公共区域密集部署WLAN热点,导致WLAN在现实组网环境中(特别是大规模密集组网时)
课堂管理是建立和维持班级团体,以达到教育目标的过程,其有效性直接关系着课堂教学的效率和质量,关系着学生的发展与进步。目前,国内外学者对课堂管理有效性的相关研究已取得
美术基础教育新课改倡导对美术课程资源进行有效补充,而查干湖文化美术课程资源丰富、开发应用条件相对成熟,因此提出对查干湖文化美术课程资源开发应用进行研究。本文以查干
近几年来随着计算机技术的不断发展,互联网汇集着大量的资源,但由于互联网资源具有成长、自治和多样的特性,传统的计算模式已经无法适应新的互联网环境,导致资源的利用率和共
基于无线信号的被动定位与行为识别是一项新兴的技术,它可以在被监测者不携带任何额外设备的情况下,估计被监测者的动作与位置。该技术在普适计算、智能家居、安防、救援等诸
目的:描述老年2型糖尿病患者的社会网络现状;探讨老年2型糖尿病患者社会网络的影响因素。方法:采用便利抽样的方法,于2019年4月至2019年9月在北京市北京中医药大学东直门医院、北京医院、中日友好医院内分泌科门诊及病房,以及北京市丰台区方庄社区卫生服务中心所辖5个社区内抽取老年2型糖尿病患者。采用Lubben社会网络量表简表(LSNS-6)调查老年2型糖尿病患者的社会网络水平,采用一般情况调查问卷