知识引导的汉语语音识别搜索算法研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:tlljs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别搜索算法,或称解码算法,是语音识别系统的核心之一,直接决定系统的性能。它利用声学模型、语言模型及更高层的语法语义等知识,在由发音词典构成的搜索空间中寻找最优词序列。解码算法涉及路径的扩展、打分、合并、剪枝等操作,复杂度较高,因此对解码时间具有很重要的影响。但实际上,解码中包括一部分路径扩展在内的很多操作是不必要的,即使执行扩展,生成的新路径也会因为得分过低在剪枝阶段被删除。因此,研究如何利用相关知识减少不必要的解码操作,对于提高识别速度具有很重要的意义。另外,虽然传统解码算法使用的声学模型与语言模型从不同层次刻画了语音学及语言学的一部分规律,但是,单一的信息源对于语音本质的刻画远远不够,而融合了互补的多源信息的识别系统能够有效降低识别错误率。   本论文通过挖掘声学模型及语言模型之外的语音相关知识,并将其用于指导搜索过程,达到或者减少盲目搜索,或者提高搜索准确性的目的,最终改善解码速度及精度。主要工作如下:   1)本研究首先从搜索空间构建及搜索策略的角度分析了当前主流识别系统。然后,我们采用基于词树重入的搜索空间构建方法及基于帧同步的Viterbi束搜索策略,搭建了汉语大词汇量连续语音识别解码系统。作为开展后续研究的实验平台,我们对解码器中采用的路径扩展方法进行了详细描述,并给出了系统在大词汇量连续语音识别任务下的性能。   2)在解码时,根据路径扩展在HMM中发生的位置,可以将扩展划分为HMM内部扩展及HMM之间扩展两种模式。本研究通过分析及实验证明了HMM间扩展比HMM内扩展具有更高的复杂度,并在此基础上提出在语音的分频带能量稳定区域只执行HMM内扩展,而不执行HMM间扩展。结果显示,融合了语音帧的发音稳定性信息的解码系统能够有效降低全部扩展中HMM间扩展的比例,但有效HMM间扩展不会减少,从而不会因限制扩展带来解码错误。实验结果显示,所提算法的解码实时性比基线系统提高22.1%。在相同的解码时间下,相对错误率下降5.24%。   3)为了利用语音帧在声学特征空间中的位置信息,本研究提出一种基于引导概率的语音识别解码算法。我们首先统计了通用背景模型中各高斯成分与音素间的对应关系,得到引导概率,并将之与传统的声学概率和语言模型概率融合。使用引导概率后,解码器更强调对声学特征空间中最有希望的局部进行精细搜索,保留并扩展通过此局部空间的路径,同时弱化不经过此局部空间的路径。之后,本研究从路径得分层次分析了引导概率在扩展及剪枝过程中的作用,并考察了不同的UBM训练及归一化方法、引导概率权重、主高斯数量对系统性能的影响。实验结果显示,基于引导概率的解码算法与基线系统相比,汉字相对错误率下降10.95%。另外,本研究从路径总概率计算的角度重新解释了基于发音稳定段的解码算法,并将其与基于引导概率的解码算法融合,以便于同时利用语音帧的稳定性信息及语音帧在声学特征空间的位置信息。结果显示,融合后的系统性能优于只使用单一信息源的解码系统。   4)本研究采用混合高斯分布之间的距离刻画了不同音素间的相似性,以及音素本身的大小,用于说明说话人、语境等条件发生变化时,音素发音之间互相偏离的程度。我们进一步探索了发音畸变的程度与识别结果中的替代错误率之间的关系,为下一步改进语音识别解码算法提供了新的知识。
其他文献
随着社会进步和网络技术的不断发展,web应用系统在信息化建设中得到广泛应用。构建在J2EE平台上的各种框架与技术,促进了web应用系统开发的进一步发展,简化了软件开发过程。然而
近年来,随着经济的发展,现有的道路运输系统已不能满足当前社会发展的需要。各国政府和科研机构都将大量精力投入到(Intelligent Transportation System,ITS)的研究。其中汽
在我国人口老龄化的背景下,空巢老人和独居老人的数目不断增加,与此同时对于老年人的监护需求快速增长。实时确定老年人所在的位置才能为老年人提供优质服务,而无线传感器网
面向微纳级操作对象的控制系统,其操作过程中会呈现出诸多与宏观操作不同的现象和特点,这对系统的灵活性、可靠性和高效性提出了更高的要求。本文结合SEM视觉辅助、力觉反馈
随着社会经济的发展,私有车辆的迅速增加,城市正面临着越来越严重的拥堵与交通事故。为了能够舒缓交通压力、减少交通拥堵、降低事故发生率,准确的交通信息采集是其中的关键
视频内容分析是当前多媒体领域的热点研究问题之一,是视频数据检索、浏览、和管理的关键技术。它能够对视频内容按照不同的语义概念标注关键字,从而为后续的数据管理、检索和
记忆是人类最基本的认知功能之一,也是人类进行其他高级认知活动(学习,问题解决等)的基础。内侧颞叶与记忆有着密不可分的关系,研究表明内侧颞叶是一个具有整合高级信息的重要神
为辅助水中仿生机器人协作相关科研工作,推动水中机器人二维仿真比赛的发展,本文设计并实现了一套基于微软公司机器人开发者工作室(MicrosoftRobotics Developer Studio,MRDS
当前,移动机器人已经被广泛应用到了工业、航天、军事、服务等诸多领域。随着应用领域的拓展,人们对移动机器人的智能性要求也越来越高。由于视觉系统是最接近人类感知环境的
纯电动汽车的广泛应用不但可以有效地避免对环境的污染,而且能摆脱对石油等燃料的依赖,将是人类今后大力发展的交通工具。电动汽车的应用前景十分广阔,但目前针对其复合电源能量