论文部分内容阅读
说话人识别,为生物识别的一种,它主要依据说话人语音中表征的个性特征,作为特征参数,从而利用各种模型方法,如动态时间规整(DTW)、矢量量化(VQ)、隐马尔可夫模型(HMM)、高斯混合模型(GMM)及人工神经网络(ANN)等等,进行识别的技术。本文是基于改进双门限端点检测、FTRLS滤波算法和BP神经网络进行的与文本无关的说话人辨认系统,其主要研究如下:(1)改进的双门限端点检测方法。文中首先介绍了两种传统双门限端点检测的算法步骤,并通过实验证实,第一种端点检测方案存在音节漏检,原因可能是由于静音或停顿时间过长,被误认为是检测结束;第二种端点检测方案受突发噪声的影响颇为严重。为了同时避免这两种传统端点检测方案存在的缺陷,本文提出了一种改进的双门限端检测方法,对比改进前后实验结果可以看出,改进后的端点检测方法将语音进行逐音节检测,并去除音节间隔静音部分,同时排除了一定突发噪声的干扰,大幅度地提高了说话人系统的识别效果。(2)提出了一种改进的FTRLS滤波算法,即找出计算误差大的量并累计,再将该误差进行反馈从而使算法更加稳定。仿真结果分析表明,改进算法提高了收敛速度和稳定性,并有效地减小了收敛后的噪声。(3)利用三层BP神经网络进行说话人识别。本文中BP网络输入层为24或36个神经元,隐含层为25个神经元,输出层神经元个数最大值为10个,并对四种激活函数Sigmoid函数、Tanh函数、ReLu函数及Leaky ReLu函数进行分析,最终与改进的端点检测和FTRLS算法结合起来进行说话人识别。实验证明,改进的算法将说话人识别率提高了约5%,而且降低了计算复杂度,增加了系统稳定性。