孤立词识别中的说话人归一化技术

来源 :上海大学 | 被引量 : 0次 | 上传用户:ZHAOTAON
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。语音识别技术开发的产品,应用领域非常广泛,几乎深入到了社会的各个行业、各个方面。对于应用十分广泛的孤立词语音识别系统,怎样更通用,快速地适应各类人群的语音识别系统成为语音识别的研究关键。 九十年代以来,大规模词汇的特定人的连续语音识别取得了很大进展,但对非特定人情况,识别性能急剧下降。主要问题是由于非特定人之间的差异造成的。说话人语音的差异,主要来源于说话人的发音生理结构的差异。 但是尽管说话人的差异很大,人却可以很轻松的理解不同口音和性别的各种人的语音。这就说明人的大脑可以进行一些归一化过程,去除语音个性化的特征。说话人归一化技术的思想就是源于人的识别过程,说话人归一化目的是建立一个归一化的说话人空间,使得任何人的语音可以映射其中。 在语音识别系统中,大多前期处理提取的都是声道参数,因此对说话人的归一化主要集中于归一化说话人声道长度的差异。一般而言,精确的归一化函数是保证归一化效果的前提,但过于复杂的方法,计算量就大,对实际应用场合是不适用的。因此为了简化处理,常采用统一的归一化函数来进行处理,但这种方法与实际语音统计结果并不相符。因此本文提出用说话人转换中的动态频率规整的方法实现说话人语音的归一化,这种方法避免了单一的归一化函数的处理,实验证明这种方法能有效地提高孤立词识别系统的识别率。 另一方面,以往的说话人归一化技术关注于对声道响应的差异的归一化,但近期的研究证明,声门共鸣也同样影响着说话人的频谱特性。因此本文进一步提取鲁棒性能和抗噪性能优于MFCC参数的感知最小方差无失真参数(PMVDR)来进行说话人归一化,同时为了能够对不同说话人进行更准确更快速地感知折叠变换,本文提出采用基于下声门/声道非线性耦合作用的第二声门共鸣频率来估算感知折叠因子,与采用第三共振峰的估算方法比较,它能滤除语义信息的影响,更好地体现说话人的个性特征。具体应用时,本文首先提取语音的MVDR频谱包络求出第二声门共鸣频率,并由此估算感知折叠因子,然后利用所得到的折叠因子对感知最小方差无失真参数进行归一化,最后将归一化的参数用来进行语音模型训练与识别。实验证明,这种方法能够有效地提高非特定人的语音识别系统的识别率。 最后,本文通过具体的实验对影响系统识别性能的因素进行深入的分析,并加以总结和归纳,并指出今后努力的方向。
其他文献
随着网络和多媒体通信技术的发展,移动终端如手机,PDAs(个人数字助理)等的广泛应用,人们对移动网络服务提出了越来越高的要求。移动终端具有一些共同的特点如:显示分辨率低,
感知音频编码是一种音频压缩方法,能够利用人耳听觉系统的感知特性对失真和噪声进行整形,并使得重建信号与原始信号的差别无法被感知到。感知音频编码能够在较低编码速率的条
本文对开放式文档同构引擎进行深入研究,旨在实现一个用于底层支撑作用的文档引擎,使高层内容安全产品摆脱文档异构化和文档理解的难题,专注于自身的研究。本文首先介绍了物
随着现代工业技术的快速发展,重大机械装备运行状态的安全监测愈加必要,也成为业界研究热点。光纤光栅传感器以其体积小、重量轻、柔韧性好、耐高温腐蚀、强抗电磁干扰能力等
本文作者结合结合实际工作经验,分析介绍了北方农田水利工程低温条件下施工的施工技术。
工程建设过程中普遍存在施工合同价款及调整方式约定的问题,本文针对这些问题进行分析,并提出相应的防范措施,以此保证合同双方订立一份内容完善、权责明确的施工合同,维护其合法
多播传输是一种应用前景广阔的网络传输技术,它可以大大提高网络通信中一对多的传输速率。多播技术可应用于内容分发、流媒体、网络游戏、视频会议和远程教育等,但仅凭网络层
本文论述了清水混凝土定义及其优点,并从模板施工、钢筋施工以及混凝土浇筑、振捣和养护等工艺轮速了高层中清水混凝土施工技术要点。
宽带战术互联网在现代战争中具有重要意义,如何设计出能够适应宽带战术互联网大规模、高移动速率特点的路由协议是一个具有挑战性的任务。本文介绍了宽带战术互联网中现有的
本文概述了绿色建筑的起源,阐明了绿色建筑在设计中的设计原则,并从气候、环境、技术等角度分析了自然环境与建筑的共生性与影响,指出绿色建筑应运用多种绿色生态观念处理好气候