基于i-vector的与文本无关的说话人识别研究

来源 :兰州理工大学 | 被引量 : 0次 | 上传用户:fightwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别作为生物识别的一种,因其使用便捷性、非交互式等优势逐渐被人们接受和使用,并成为生物识别领域的研究热点。与文本无关的说话人识别是从语音信号中提取出能反映个人特征的信息,来完成对话者身份的辨认和确认。近年来,随着说话人识别技术的发展,说话人识别逐渐走向社会应用,但实际使用时,由于实际环境的影响、语音采集设备的多样性以及话者语音的长短等影响,说话人识别在识别精度上还存在一些问题。本文针对在实际使用时,测试话者的短语音导致识别精度不高以及环境失配等问题,从补偿的角度,研究了高斯模型、i-vector模型以及高斯线性鉴别性分析(GPLDA)模型。  首先,本文对说话人识别的模型进行了介绍,探讨了说话人识别的预处理和特征提取,利用美尔频率倒谱系数提取话者的特征,针对训练和测试语音不足的问题,构建了GMM-UBM模型,对其原理和建模进行了相关的阐述,并分析了该系统的优缺点,通过实验验证了模型的混合度选取,研究了反映说话人动态和静态特征的美尔频率差分特征对说话人识别的影响,通过实验分析了该系统的性能。  其次,针对GMM-UBM跨信道性能差的特点,在因子分析的基础上,利用身份认证矢量i-vector构建了基于i-vector的说话人确认系统。针对信道失配等问题,利用线性鉴别性分析和类内协方差归一化等补偿手段对系统进行补偿,并分析各补偿方式对系统的影响。同时利用实验分析了i-vector维数对说话人识别系统的影响,并选取了合适的特征维数。  最后,针对目前与文本无关的说话人识别,基于不定长短语音的说话人确认的识别精度低等问题,本文采用高斯线性鉴别行分析(GPLDA)模型,针对将i-vector转化到PLDA模型时,对i-vector进行长度归一化,导致对长度归一化后的i-vector的后端协方差不能进行精确计算,影响系统的鲁棒性。本文提出利用全变量空间的列向量归一化来代替对i-vector的长度归一化,并对提出的方法进行验证和实验,结果表明该方法可以提高系统的鲁棒性,且识别率没有降低。
其他文献
学位
学位
学位
生物信息学(Bioinformatics)是伴随着人类基因组计划而产生的一门新的学科,这一学科是集计算机科学、生物学、应用数学、物理等学科为一体的综合学科。基因表达数据提供了大量的
随着嵌入式系统,网络技术和计算机视觉技术的不断发展,未来我们将实现:在任何地方,任何时间,通过任何一种网络访问方式,实现一种或多种的现实智能需要操作。老龄化社会的到来
随着科学技术的不断发展和自动化水平的不断提高,现代机械设备日趋大型化和复杂化。传统的故障诊断专家系统由于受到自身的瓶颈束缚已经难以胜任现代设备故障诊断的任务。现在
风力发电是当今世界增长最快的可再生能源发电方式,我国的风力发电近几年得到了迅猛的发展。由于风电具有较强的随机性和波动性,大规模的风电并网会对电力系统的安全、稳定运行
学位
随着的电力电子技术的不断发展,人们对交流调速系统的性能要求越来越高,矢量控制与直接转矩控制是主流的两种控制方式。矢量控制调速范围宽,动态性能好,但是受电动机参数变化影响较大,直接转矩控制正好能够弥补矢量控制这点不足,且控制结构简单,能实现更快速的转矩响应,这使得它更适合于牵引等大功率应用场合。同时,为保证安全,大功率应用中开关频率普遍较低,这就促进了在低开关频率下对直接转矩控制的研究。本文主要在低
随着科技的进步以及物联网的迅速发展,智慧城市的建设得到全球范围内的关注,城市管网系统作为智慧城市基础设施的重要组成部分,对智慧城市的建设具有决定性的作用。而传统的管网