论文部分内容阅读
本文就特征提取、文本无关说话人识别的主要经典方法作了回顾,强调并阐释了各种方法在物理上的意义。针对文本无关说话人识别中训练语音和测试语音的内容不受制约因而不具可比性的问题,本着“在具有可比性的语音组成单位中寻找不同的身份信息”的思想,系统地提出了一种说话人识别方法。该方法提取语音中的浊音作为训练样本和测试样本。以LPC系数作为特征向量,将语音的每一帧特征向量视作一个语音组成单位。用一个高斯概率密度函数表征一个语音组成单位,以此为每个人建立语音组成单位的模型,也就是每个人语音组成单位的集合。获得模型各参数的方法是:对说话者的训练样本用k均值聚类算法进行初始聚类,得到每一个类的类心和协方差矩阵的初始值。然后利用GMM迭代算法对类心和协方差矩阵进行优化处理。把优化后的结果作为语音组成单位在特征空间中的表示,从而得到各语音组成单位在特征空间中的分布。以这个模型为基础,设计说话人识别算法。通过处理测试样本对模型中语音组成单位的匹配值,分别提出了一种对说话人进行确认和辨认的方法。两种方法的物理意义明确、可操作性强。实验结果表明,即使使用短时测试语音,上述方法也能取得较好的识别效果。最后,对全文进行总结,并对文本无关说话人识别的研究方向进行讨论。