基于稀疏表示的鲁棒性说话人识别技术研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:gongjuntao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经过了几十年的研究发展,说话人识别技术凭借其快速、简便的优势,在人机接入领域得到了大家广泛的关注和研究。匹配模型是说话人识别研究中的关键技术,模型性能的优劣对识别系统识别率的影响重大。信号的稀疏表示技术近几年被广泛应用于说话人识别之中,它与高斯混合模型相结合,显著提高了识别系统的准确率。目前,说话人识别研究的主要方向是进一步提高系统的鲁棒性,具体表现为解决信道失配问题和环境噪声问题;另一方面,在智能终端广泛普及情况下,借助智能终端进行快速准确的身份识别,需要进一步解决系统复杂性问题。本文主要对基于稀疏表示的鲁棒性说话人识别技术进行了深入研究,在此基础上,本文主要工作和创新如下:(1)在训练基于高斯混合模型均值超向量的稀疏表示字典时,需要大量的训练语音以达到字典冗余的条件,本文提出使用高斯混合模型均值矩阵代替均值超向量进行字典训练来解决这个问题,同时,每个说话人即可形成一个冗余字典进行说话人识别,识别时的计算量也得到了降低。(2)对比了样本字典和学习字典这两种字典在干净语音环境与有噪语音环境下的性能,发现学习字典的抗噪能力要弱于样本字典,并且提出在训练语音中加入噪声以减小识别环境和训练环境的差异,从而提高识别率。(3)针对识别时的环境噪声问题,提出一种适用于稀疏表示说话人识别的全局补偿方法。该方法对不同阶特征参数进行逐一分析,目的是为了找出被噪声影响最严重的一阶参数并去除之,以此增强测试语音与训练语音之间的相关性,提高了识别系统适应不同噪声环境的鲁棒性。仿真实验结果表明本文方法明显加强了说话人识别系统的抗噪能力,在背景噪声为白噪声,信噪比为15dB的情况下,识别率可达到96%,与无噪环境下的识别率相差无几。
其他文献
超宽带(Ultra-Wide Band,UWB)高功率技术在雷达、通信、电子对抗等领域有广泛的应用。高增益的超宽带天线作为超宽带高功率的关键技术之一,具有重要研究意义。经典的超宽带天
PN码(伪随机码)的同步技术是CDMA系统的关键技术之一,包括PN码的捕获和跟踪。PN码同步性能的好坏决定着DS-CDMA系统的成败。本文详细讨论了DS-CDMA系统的PN码捕获与跟踪技术,
随着科技的迅速发展和宽带网络的不断延伸,使用视频点播的用户数量正在以每年30%的速度增长,这使得原有VOD系统的用户负载、服务器安全性和稳定性等各项性能均不能满足日益增
智能交通系统是未来城市交通管理系统发展的必然趋势,运动车辆的检测与跟踪是智能交通系统中的核心内容之一。如何能够正确的检测出运动车辆并能实时准确的跟踪是目前亟待解决
宽带无线城域网(IEEE 802.16)作为下一代宽带无线通信技术的发展方向,与传统的无线接入技术相比具有更高的速率、更大的覆盖范围和更低廉的成本。无线Mesh网络是一种大容量高
智能视频监控中,利用计算机实时定位视频中感兴趣的、显著视觉特征的多个独立目标,精确计算出目标在视频中位置大小、运动速度、表观特征等状态信息,为目标分类识别、行为理
随着因特网的越来越广泛的应用,如何对因特网进行有序管理,已经引起了人们的高度重视。而网络流量监测是网络管理的一个重要组成部分,网络流量数据为网络的运行和维护提供了
随着计算机技术的不断提高以及社会信息化程度的逐渐深入,说话人识别技术的应用场景也越来越多,并且用户对说话人识别系统的友好性、精确性和鲁棒性的期望也逐渐提高。在纯净