语音识别中语言模型的研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:wcd_wang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文针对语音识别和中文整句输入法的具体任务,对统计语言模型中的构造和一些关键技术进行了深入的研究,主要讨论了N-gram模型、N-gram改进模型的理论基础及其实现技术.具体有:1.实现了基于动态规划算法的最少切分分词算法.并通过分析一些错误的分词情况和汉语的特点,使用逆序处理方式,引入2字词数目、词出现概率等对分词的影响,对自动分词给出了一个较满意的解决方案.2.针对统计语言模型参数训练过程中的数据稀疏问题,研究了针对N-gram统计语言模型的数据平滑技术.讨论了数据平滑技术的必要性和评价标准,实现了多种典型的平滑算法,并通过大量实验比较并分析了这些平滑算法的优劣.3.实现了基于N-gram统计语言模型的音字转换栈解码算法,提出了双栈和多栈两种策略并设计和优化了搜索算法,引入了中文词法树来限制搜索空间,并将该算法应用到语音识别系统和中文整句输入法中.实验表明栈解码算法、特别多栈解码算法是一种效率较高的音字转换算法.4.在统计语言模型构造中,提出了将词间距离信息结合到N-gram统计语言模型中的思路,并称之为距离加权的关联词统计语言模型.
其他文献
该文分析了成本控制系统的特点,提出了适合离散制造类型企业的成本计划与控制模型,并阐述了成本计划的概念、特点,给出了成本计划的定义,依据成本控制的原则,定义了成本体系
信息网络时代的到来,使得互联网新闻信息急剧增长,面对着交错纷杂的新闻信息报道,人们在从中获取社会热点话题,掌握社会信息动态,了解网络信息舆论变得越来越困难,网络热点新
该文详细探讨和分析了软件Agent技术的产生和相关技术及其在网络信息检索方面的应用.针对Agent信息资源的特点和信息检索系统的现状,该文提出了一个基于智能Agent技术的网络
该文首先介绍了统一消息的定义、特点、发展阶段和发展现状;其次对统一消息的技术基础即计算机电话集成技术(CTI)进行了深入的分析和研究,计算机电话集成技术在语音通信和计算
论文首先对该次AES标准的评选过程作了概括性的介绍,在阐明了算法所使用的数学知识和设计原则基础之上,逐步地详细分析了该算法的设计过程,对算法所使用的核心——轮变换函数
该文共分两个部分:数据结构网络课件系统;DSNCS和面向平面几何角度计算的智能测试系统ITSGAC.第一部分:教育部功能“数据结构网络课件系统DSNCS”的部分设计与实现,其中包括部
该文针对现有搜索引擎中存在的问题,提出了一个结构新颖的搜索引擎——移动式搜索引擎,其重点在于改进了搜索机器人的工作模式.它将移动计算作为搜索机器人的工作平台,提出了
视频和图像压缩在多媒体应用这一为工业界带来新的机遇的领域中扮演了极其重要的角色.随着Internet和无线通信的发展,视频和图像编码的基本目标正在发生着改变.传统的视频和
网络安全在Internet中起着越来越重要的作用.网络安全保障的实现方法一般可分为两大类:以防火墙技术为代表的被动防卫型和建立在加密、安全认证机制上的开放型网络安全保障系
句子相似度计算是EBMT系统实现的关键,它直接关系到EBMT系统本身的翻译质量.现有的几类句子相似度计算方法中,基于词的方法虽简单、流行,但由于对句子不加任何句法结构分析,