论文部分内容阅读
自动说话人识别(Automatic Speaker Recognition, ASR),很久以来就是一个既有巨大吸引力而又有相当困难的课题。自动说话人识别是指计算机通过对说话人语音信号的分析处理,自动确认说话人是否在所记录的说话人集合中。说话人识别可分为三类,即“与文本有关”、“与文本无关”和“文本指定”。
与文本有关的说话人确认系统的研究已经比较成熟,并已作为商品在许多需要身份确认的场合中应用,而与文本无关的实现要复杂和困难许多。随着对与文本无关的说话人识别系统研究的不断深入,说话人识别的应用已经渗透到数据库管理、机器人研究、电信、安全系统以及命令控制系统等诸多领域。
在说话人识别研究的主要问题包括:
(1)寻找能够有效代表一个人的特征参数。
说话人识别所采用的基本方法是比较被识别人的话音与已知被存储的话音所形成的差别,这种差别往往以彼此之距离作为测度。目前已提出过的或使用的距离测量方法很多,重要的问题在于寻找合适的语音参数。说话人识别的参数应有以下特点:
①对不同的说话人差别较大,对同一说话人的不同语音或在不同时间、地点所发的同一语音则变化要尽量小;
②易于计算和处理;
③不易被模仿;
④受外界干扰较小,能适应不同的处理系统;
(2)设计能够有效地计算一段测试语音与某个人的特征参考模板之间距离的匹配算法。
目前,说话人识别的研究主要集中在以下几个方面:如何增强特征矢量的鲁棒性和决策规则;以及提取在复杂噪声环境和信道条件下依然有效的特征参数;如何选取分类器和决策规则;以及怎样将新算法、新思路或其他领域和学科的成果与传统的识别方法结合起来,以改进系统的性能。
本论文的研究内容是与文本无关的说话人识别算法的研究。主要做了以下几方面的工作:
(1) 研究了几种常见的说话人识别的特征提取办法,如:线性预测倒谱系数(LPCC)、差分LPCC、美尔倒谱系数(MFCC)和差分MFCC等,并通过实验,说明使用不同的系数进行说话人识别的效果;
(2) 研究了矢量量化(VQ)、高斯混合模型(GMM)和人工神经网络(ANN)三种说话人建模方法,基于以上参数和模型建立了多套说话人识别系统,并给出了详细的测试结果;
(3) 在VQ的说话人识别模型中,码本的初始化采用了改进的二元分裂法,在距离的匹配算法中采用了一种新的加权方法,为了防止局部最小化采用了模拟退火法,并与一种AR矢量模型做了比较;
(4) 在HMM说话人识别模型中,采用了EM算法,并运用了MCE模型的改进算法,实现了说话人识别,并取得了较好的实验结果,最后说明了HMM自转移存在的问题和提出了解决办法;
(5) 在ANN的说话人识别模型中,说明了BP算法,并结合VQ,运用了LVQ学习算法去实现说话人识别,然后运用GMM/ANN混合模型去实现说话人识别方法,最后指出了ANN存在的一些问题和解决办法。
本论文对说话人识别与应用具有一定的参考借鉴价值。