数字串语音和对话电话语音的说话人确认的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:tbtbtb5518232
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文对两种具有实用背景的语音输入方式——数字串语音和对话电话语音的与文本无关的说话人确认进行了研究,并针对两种方法实现中的关键问题,进行了深入的研究和探讨.数字串语音的与文本无关的说话人确认,对于语音长度在几秒以内的短语音的任意数字串的说话人确认,我们采用了基于语音识别和说话人确认的两级识别机制,以及基于关键数字的多子系统结构策略.利用非限定人语音识别器对输入语音进行识别并切分出其中用于与文本有关的说话人确认的基元,为多个基元分别构造说话人确认子系统,并对它们的输出评分综合判决.针对非限定人的语音识别,提出了一种新的隐马尔可夫模型结构——并行HMM(PHMM).针对连接数字串的语音识别,研究了从数字串语音中训练出单个数字模型的训练问题,以及数字串和模型之间高效、实时的匹配问题.提出了一种基于帧间相关特性和汉语音节组成规则的数字串的音节切分方法,解决了初始模型的训练问题,在此基础上训练出的模型具有更优的性能.研究了基于多个关键数字的与文本有关的说话人确认方法,提出了以模型间的距离测度为准则来选择说话人的关键数字,而为计算模型间的距离测度,采用了计算KLD上限的方法.对话电话语音的与文本无关的说话人确认,对于传输通道和背景多变的复杂环境下的电话语音的说话人确认,目前采用语音长度较长(1分钟以上)的基于GMM-UBM框架的确认方法.而针对NIST对话电话语音说话人评测(2-speaker)任务,我们通过对话语音的切分和分类以分割出目标说话人的语音,从而实现与文本无关的说话人确认.论文讨论了在较复杂环境及训练与测试语音环境失配的情况下,仍具有较好鲁棒性的GMM-UBM结构.研究了用于对话语音的切分和分类的基于距离测度的无监督语音分割算法,并详细讨论了基于GLR和持续时间相结合的相似性测度.利用上述技术和算法实现的2-speaker说话人确认系统在NIST2003和NIST2004两年的2-speaker说话人识别评测中均取得了优异成绩,排名分别为第三和第二,仅次于MIT的Lincoln实验室和IBM研究院.论文研究工作得到国家自然科学基金(No.69872036)、安徽省自然科学基金(No.01042205)和国家自然科学基金(No.60272039)的资助.
其他文献
该文是重点介绍了作者在密码应用技术方面的理论研究和实践工作,主要包括:1、利用密码技术建立网络责任机制 密码技术作为保障证据效力、保证取证和验证机制有效性的关键技术
在电力行业中存在各种计算机应用系统,EMS(Energy Management System),即能量管理系统,是这些应用系统的一个重要部分.在EMS系统中存在大量的用于展示的图形信息,目前,因为各
随着无线定位在人员安全,物流监控等方面的应用越来越广泛,人们对它的研究投入了更多的关注。 通过分析国内外相关研究现状,本文对现有多种定位系统进行深入分析、比较,继而探
建筑布局成像技术以穿墙雷达技术为依托,对场景的建筑结构进行探测并获取建筑布局图像,可极大提高穿墙雷达在反恐、救援、巷战等应用中的作战效率,拓宽了当下穿墙雷达深入军事民
实时操作系统是一种能在边界时间内提供所需级别服务的操作系统。它能够明确说明它的每一个系统服务运行所需的最长时间,运行在它上面的任务的行为都是可预测的。实时操作系
无刷直流电机在当今国民经济各个领域得到了广泛的应用。针对无刷直流电机的参数在系统输入信号发生变化时会相应地发生变化的特性,鉴于传统的PID控制无法很好地适应参数的变
学位
合成孔径雷达干涉技术能够为地形测量提供高精度的高程信息。随着科学技术的发展,人们对高程精度的要求越来越高。由于毫米波SAR采用比常规SAR系统更短的波长,可以获得更高的