论文部分内容阅读
随着社会信息化程度的发展,越来越多的场合需要对人的身份进行可靠地识别,传统的以密码方式进行身份认证的技术日益暴露出很多弊端。为确保信息安全,用人特有的生物特征作为认证手段的技术逐渐发展起来。说话人识别属于生物认证技术的一种,是一项根据语音波形中反映的说话人生理和行为特征的语音参数,自动鉴别说话人身份的技术。说话人识别技术以其独特的方便性、经济性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安全验证方式。本文的研究对象是与文本无关的说话人确认系统。本文首先介绍了说话人确认的声学基础,研究了常用特征参数的提取方法以及基于矢量量化的说话人确认系统,提出了联合量化码本和平均量化误差作为表征说话人的模型,相应改变了距离测度的计算方法。对于说话人确认系统中存在的阈值难以确定等问题,提出了一种新的基于矢量量化方法的阈值的计算方法,该算法可以在训练时根据不同的用户得出不同的阈值,无需人为在系统中设定,与传统的经验阈值相比具有较好的鲁棒性。在Matlab下对改进后的说话人确认系统进行了仿真,研究了几种常用特征参数的优劣性,以及对系统性能的影响,根据仿真结果,设计了一个说话人确认系统性能测试平台,可方便研究系统性能,最后用C语言实现了系统的核心算法。在实验室环境下,建立了一个27人的与文本无关的语音库。理论和实验结果表明:加倒谱提升窗的Mel倒谱参数是常用特征参数中识别率高、计算量折中的参数,改进后的基于矢量量化的与文本无关的说话人确认系统与传统的基于矢量量化的系统相比具有更好的鲁棒性,误识率有显著的降低。系统的错误率较低,计算量较小,实时性好,可用在一般的身份确认场合,若用在高度机密的身份确认场合,要求错误接受率尽量低,系统的性能有待进一步的提高。