论文部分内容阅读
该文对两种具有实用背景的语音输入方式——数字串语音和对话电话语音的与文本无关的说话人确认进行了研究,并针对两种方法实现中的关键问题,进行了深入的研究和探讨.数字串语音的与文本无关的说话人确认,对于语音长度在几秒以内的短语音的任意数字串的说话人确认,我们采用了基于语音识别和说话人确认的两级识别机制,以及基于关键数字的多子系统结构策略.利用非限定人语音识别器对输入语音进行识别并切分出其中用于与文本有关的说话人确认的基元,为多个基元分别构造说话人确认子系统,并对它们的输出评分综合判决.针对非限定人的语音识别,提出了一种新的隐马尔可夫模型结构——并行HMM(PHMM).针对连接数字串的语音识别,研究了从数字串语音中训练出单个数字模型的训练问题,以及数字串和模型之间高效、实时的匹配问题.提出了一种基于帧间相关特性和汉语音节组成规则的数字串的音节切分方法,解决了初始模型的训练问题,在此基础上训练出的模型具有更优的性能.研究了基于多个关键数字的与文本有关的说话人确认方法,提出了以模型间的距离测度为准则来选择说话人的关键数字,而为计算模型间的距离测度,采用了计算KLD上限的方法.对话电话语音的与文本无关的说话人确认,对于传输通道和背景多变的复杂环境下的电话语音的说话人确认,目前采用语音长度较长(1分钟以上)的基于GMM-UBM框架的确认方法.而针对NIST对话电话语音说话人评测(2-speaker)任务,我们通过对话语音的切分和分类以分割出目标说话人的语音,从而实现与文本无关的说话人确认.论文讨论了在较复杂环境及训练与测试语音环境失配的情况下,仍具有较好鲁棒性的GMM-UBM结构.研究了用于对话语音的切分和分类的基于距离测度的无监督语音分割算法,并详细讨论了基于GLR和持续时间相结合的相似性测度.利用上述技术和算法实现的2-speaker说话人确认系统在NIST2003和NIST2004两年的2-speaker说话人识别评测中均取得了优异成绩,排名分别为第三和第二,仅次于MIT的Lincoln实验室和IBM研究院.论文研究工作得到国家自然科学基金(No.69872036)、安徽省自然科学基金(No.01042205)和国家自然科学基金(No.60272039)的资助.