基于计算听觉场景分析的三通道语音分离研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:zxcfs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,语音信号分离受到广泛关注,众多学者在计算听觉场景分析的基础上作了深入研究。目前语音分离主要有基音估计、盲信号分离和声源定位等方法,本文主要针对声源定位进行探讨,在原有双通道语音分离的技术上提出一种三通道的语音分离方法,具体内容如下。首先,本文对原双通道语音分离系统进行模拟和仿真,混合目标语音信息和其他干扰信息,模拟嘈杂的分离环境;将混合信号进行听觉外围处理,得到时频单元;计算耳间时间差和耳间强度差;将时间差、强度差和阈值进行比较,生成听觉掩蔽矩阵;根据掩蔽矩阵逆合成目标语音信号。实验表明,当声源位置接近时,系统的分离效果不明显,分离增益和相似度比较小。其次,在双通道语音分离的基础上增加一个阵元,构成三阵元的阵列,然后再进行听觉模型处理。经仿真实验结果证明,该方法抑制了噪声和次要语音信号,在分离增益和相似度上均有一定的提高,但是由于增加一路通道,从而增加了运算量。再次,由于环境噪声对语音信号的分离影响很大,在三通道语音分离的基础上引入一个降噪处理过程,即在混合语音进行听觉外围处理之前,将带噪的混合信号,先进行经验模态分解,然后再进行听觉外围处理。实验表明,该方法提高了噪声环境下语音信号的分离增益,但是对分离语音信号的相似度提高不明显。最后,本文对课题进行了总结和展望,并指出了本文存在的不足。
其他文献
近年来随着3D内容采集和显示技术的飞速发展,多视角视频系统积蓄了越来越巨大的商业潜力。很多最初的三维视频系统选择H.264/AVC标准的多视角视频编码扩展标准——MVC标准作
分布式声源定位技术因其具有广泛的应用而成为自一战以来的研究热点,并随着理论研究和技术手段的进步不断深入,其研究涉及声学、信号检测、数字信号处理、电子学、软件设计等
近年来,随着网络技术的高速发展,人们的生活与网络的联系日益密切。为了保护网络安全,必须对网络上的数据进行捕获和分析。一般来说,需要捕获的数据流量是较大的,因此必须要
为了进一步加强数字图像在传输过程中的安全可靠性,针对数字图像传输过程安全有效实时性,本文提出基于Turbo码的加密算法,设计并实现了图像的有效加密。本论文先介绍了Turbo
智能视频监控以数字化、网络化技术为基础,代表着目前视频监控的发展方向。不同于以图像的采集、传输与存储为主的传统视频监控,智能视频监控在对图像采集编码的基础上,能够
近年来,中国宽带互联网络发展迅速,基于IP的各种互联网应用层出不穷。其中,以宽带交互的新媒体,尤其以IPTV(交互式网络电视)的发展,最为引入注目。伴随着相关政策的出台以及运营牌
MIMO通信技术来提高系统容量,提供空间的多样性和抑制干扰等程度,己成为重要的下一代无线通信系统的关键之一。MIMO通信系统的基站必须在蜂窝和WLAN的实际应用,许多用户同时
随着网络技术和多媒体技术的飞速发展,多媒体通信在网络应用中所占的比重越来越大。网络视频会议是多媒体通信的主要应用之一,它的出现极大地方便了人们的沟通和交流。视频会
我国电气化铁路采用的是25kV的工频交流电为动车组供电。一方面在接触网上普遍存在着硬点问题造成受电弓与接触网分离,另一方面,为了降低单相负荷引起的负序电流含量,铁路系
调制方式自动识别是软件无线电接收机的研究方向之一,尤其对于非合作信号接收和信道认知等特殊应用场合,调制方式自动识别的研究显得更为重要。本文研究内容来源于自然基金项