论文部分内容阅读
该文在对神经网络、话者识别,尤其是鲁棒话者识别的研究现状和发展进行了认真详细的分析的基础上,利用神经网络构建特定话者的特征映射来改善话者识别系统的鲁棒性.这包括两个方面的改进工作:一是选择合适的神经网络类型,并对其参数进行优化,使其对于语音信号特征在样本空间中发生混叠时,仍然保持较好的样本表征能力;二是通过补偿的方式,对在不同环境或信道影响下发生畸变的失真信号予以恢复,使其更接近于未失真信号,从而提高可区分程度.该文从上述这两个方面出发,对基于EBF神经网络的鲁棒话者识别作了进一步深入的研究.主要工作包括:首先,该文比较并说明了RBF神经网络结构以及相对于BP网络在识别方面的优势,并对径向基核函数的选择作了进一步的讨论,由此引入了椭圆基函数(EBF)网络,它在RBF网络结构中全协方差矩阵取代原来的对角协方差矩阵,使之在不同的输入方向上的函数宽度也不同,能够在不增加基函数数目的情况下表征复杂的分布.其次,影响EBF网络性能的一个非常重要的因素是聚类.该文在分析了目前聚类的基本方法的基础上,指出以K平均法等为代表的分割聚类虽然理论上找到类的所有划分并使得目标函数最小就可以获得最优解,但由于对于相当尺度的数据集列举所有可能的划分并不现实,因而多数分割方法采用迭代优化技术作为变通.第三,该文在对期望值最大(EM)算法的思想、收敛性以及收敛速度问题作了认真细致的研究的基础上,指出EM算法在参数优化方面具有无须在每次迭代时都计算逆赫斯阵、接近于超线性收敛、无须设置步长参数就可以达到似然度的单调收敛等优点.基于这些优点,该文采用EM算法来优化EBF网络的均值及协方差矩阵参数,并给出了应用EM算法估计EF网络参数的具体公式.并且通过话者识别实验,表明利用EM算法优化的EBF网络,其性能要优于普通的RBF网络和EBF网络.第四,该文通过对鲁棒语音技术,尤其是通过电话线路的鲁棒话者识别技术的特点的分析,对鲁棒话者识别的补偿技术提出了一种新的设想和方法.最后,该文还将上述扩展的RPCL和EM算法结合起来,对EBF网络参数加以优化,并以此为基础开发了话者识别系统软件.该系统软件可以对语音数据库进行训练、测试和修改,也可以加入新的话者语音,自动地进行采样、特征提以和训练,并能够对未知话者的语音进行测试和判决,显示接受或拒绝未知话者.在现场试验中,该系统表现出识别性能良好,具有广阔的应用前景.