论文部分内容阅读
随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。语音识别技术开发的产品,应用领域非常广泛,几乎深入到了社会的各个行业、各个方面。对于应用十分广泛的孤立词语音识别系统,怎样更通用,快速地适应各类人群的语音识别系统成为语音识别的研究关键。
九十年代以来,大规模词汇的特定人的连续语音识别取得了很大进展,但对非特定人情况,识别性能急剧下降。主要问题是由于非特定人之间的差异造成的。说话人语音的差异,主要来源于说话人的发音生理结构的差异。
但是尽管说话人的差异很大,人却可以很轻松的理解不同口音和性别的各种人的语音。这就说明人的大脑可以进行一些归一化过程,去除语音个性化的特征。说话人归一化技术的思想就是源于人的识别过程,说话人归一化目的是建立一个归一化的说话人空间,使得任何人的语音可以映射其中。
在语音识别系统中,大多前期处理提取的都是声道参数,因此对说话人的归一化主要集中于归一化说话人声道长度的差异。一般而言,精确的归一化函数是保证归一化效果的前提,但过于复杂的方法,计算量就大,对实际应用场合是不适用的。因此为了简化处理,常采用统一的归一化函数来进行处理,但这种方法与实际语音统计结果并不相符。因此本文提出用说话人转换中的动态频率规整的方法实现说话人语音的归一化,这种方法避免了单一的归一化函数的处理,实验证明这种方法能有效地提高孤立词识别系统的识别率。
另一方面,以往的说话人归一化技术关注于对声道响应的差异的归一化,但近期的研究证明,声门共鸣也同样影响着说话人的频谱特性。因此本文进一步提取鲁棒性能和抗噪性能优于MFCC参数的感知最小方差无失真参数(PMVDR)来进行说话人归一化,同时为了能够对不同说话人进行更准确更快速地感知折叠变换,本文提出采用基于下声门/声道非线性耦合作用的第二声门共鸣频率来估算感知折叠因子,与采用第三共振峰的估算方法比较,它能滤除语义信息的影响,更好地体现说话人的个性特征。具体应用时,本文首先提取语音的MVDR频谱包络求出第二声门共鸣频率,并由此估算感知折叠因子,然后利用所得到的折叠因子对感知最小方差无失真参数进行归一化,最后将归一化的参数用来进行语音模型训练与识别。实验证明,这种方法能够有效地提高非特定人的语音识别系统的识别率。
最后,本文通过具体的实验对影响系统识别性能的因素进行深入的分析,并加以总结和归纳,并指出今后努力的方向。