论文部分内容阅读
说话人识别是根据人特有的语音信号识别说话人身份的一种生物认证技术。说话人识别的关键技术包括两个方面:一是如何从数据量相当大的原始语音信号中提取出反映说话人声音特色的特征参数;二是如何设计识别能力强的分类器。
本文对说话人识别系统的研究分别从特征提取与分类器设计两方面进行。
对于特征参数的提取,在对目前存在的单一主流特征进行研究的基础上,对基于声道的线性预测倒谱系数和基于人耳听觉特性的Mel频率倒谱系数及二者的差分系数进行了一系列特征组合研究,将研究结果应用于文本无关说话人识别,并对各种多参数组合特征进行了评价,通过计算机仿真实验,表明所采用的多参数组合特征有利于改善识别效果。为了降低组合特征的维数、缩短训练和识别时间,提高系统识别效率,研究了主成分分析和核主成分分析的最优降维性质在文本无关说话人识别中的应用。核主成分分析方法采用非线性方法提取主成分,是主成分分析的改进算法。本文提出了利用核主成分分析选择合适的核函数在高维空间提取组合特征主成分的方法,各组合特征经过核主成分分析降维,损失的特征信息最少,在保证识别性能的同时,后续阶段的计算开销将会大大减少。实验结果表明,核主成分分析不仅实现了合理降维,而且能取得比传统主成分分析更好的识别性能。
对于分类器的设计,主要应用人工神经网络技术,设计了基于概率神经网络的说话人识别系统。针对概率神经网络训练样本的数目比较大时,存在的内存需求巨大和运算时间较长的问题,将模糊C-均值聚类算法引入概率神经网络分类器。融合两者的优点,提出了基于模糊C-均值聚类的概率神经网络说话人识别系统。实验结果显示该系统具有较好的识别性能。