论文部分内容阅读
说话人识别是一种生物识别技术,它是指机器通过说话人的语音自动识别出说话人的身份。在信息接入服务安全控制、司法鉴定、人机界面智能化等方面这项技术有着良好的应用前景。说话人识别主要经过三个阶段来实现——提取特征、建立说话人模型、判决。特征提取阶段是第一步,也是非常重要的一步。不能提取充分反映说话人个性特征的特征量,后两步的优化很难奏效。现有特征提取方法大都是建立把语音信号当作短时平稳信号的认识基础上的,这些特征用于说话人识别取得了较好的效果,但是在人们设法进一步提高系统的识别率和鲁棒性时呈现出了它的局限性。针对这种困难,本文考察了语音信号的非线性特征,并讨论如何将它们应用于说话人识别,以改善系统的性能。围绕这个研究思路,本文主要做了以下内容的工作:
(1)介绍了说话人识别的基本概念、基本原理、技术难点,回顾了说话人识别的研究历史和概括了国内外的研究现状;
(2)为从根源上研究语音特性,本文对语音的发声器官和产生机理进行描述,分析了说话人发音过程中存在的非线性现象,并通过计算38个汉语音素的最大李雅普诺夫指数从实验角度验证了语音的混沌性;
(3)运用信号处理知识阐述线性预测倒谱系数、Mel倒谱系数等反映说话人个性的常用特征量的原理及计算方法。同时,较为详细地讨论了刻画语音非线性特性信息的特征量——最大李雅普诺夫指数、二阶熵和关联维数的物理意义及其提取算法;
(4)比较新颖地将非线性特征运用于说话人识别。为检验其效果,使用矢量量化模型和高斯混合模型两种分类器,结合常用特征构建了两个基准系统,并且提供了有关基准系统性能的实验数据。
(5)如何运用信息融合的原理融合不同特征量和不同分类器的优势来提高说话人识别的性能,本文在最后部分进行了探讨和分析。