最大熵模型在音字转换中的应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:chuanqi111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文以音字转换问题为背景,以最大熵模型为基本框架,对汉语语言模型进行研究。音字转换是指由计算机自动地将连续的拼音串转换成相应的汉字串,正确的音字转换是解决键盘输入、语音识别、语音合成等等自然语言应用问题的关键。音字转换问题源于拼音与汉字并非一一对应。本文通过建立最大熵语言模型,解决音字转换中的歧异问题,实现汉语的音字转换。 本文首先对语言模型进行了研究。语言模型主要分为基于规则的语言模型和基于统计的语言模型。一个基于统计的语言模型是把自然语言被看作是一个随机过程,其中每一个语言单位,包括词、句子或篇章等,均被看作是带有某种概率分布的随机变量,计算机通过统计语言模型的概率参数,可以估计出自然语言中每个句子出现的可能性。基于规则的语言模型对一个输入的文字串,借助于文法规则,推导出该文字串的语法结构,从而判断出该文字串是否符合文法。 在分析了语言模型的基础上,本文采用最大熵方法建立自然语言模型。最大熵方法是统计方法和规则方法的结合:它采用统计的方法建立模型,使求得的模型满足语言特征的统计分布;同时,最大熵语言模型能够把各种异构的语言特征巧妙地结合在一个统一的框架之下,最大熵方法丰富的特征选择方式,使规则模型所依赖的语法自然而然的融入了语言模型之中。最大熵方法的建模原则是对已知的事实建模,对未知的情况不作任何假设。建立最大熵语言模型时,把反映语言知识的语言特征作为模型的约束条件,使建立的语言模型与已知的语言知识一致,对未知的语言知识,使其尽可能均匀的分布。 本文还尝试将音字转换模块加入到实验室的语音识别系统,实现语音识别后处理中音节流到汉字流的转换过程。
其他文献
该文结合国家十五攻关课题"北京2008奥运信息综合服务平台"项目,针对基于语义Web服务的动态服务协同系统中的关键问题进行了研究,并开发了一具基于语义的Web服务描述模型和工
本文讨论了地理信息系统在城市交通指挥的应用,结合广西省南宁市建立城区智能交通系统的实际需要,提出了利用GIS组件进行二次开发,从而建立交通控制GIS信息平台的方案。将GIS技
近几年来,移动Ad-hoc网络作为新兴的无线通信网络,逐渐吸引了业界的注意力,成为研究的热点。移动Ad-hoc网络不需要任何无线基础设施的支持,节点可以任意移动,具有组网速度快
当今的Internet网络存在很多安全漏洞,其最根本的原因是日常使用的大部分应用程序都是不可靠的。这些程序从未经过认证,可能包含病毒、木马及其他潜在安全威胁。目前常用的防火
嵌入式软件的可靠性直接关系到嵌入式设备、人员的安全,所以一个十分重要的问题就是如何对嵌入式软件进行高效的、全面的验证和测试。嵌入式调试验证一体化平台则是应对这一
随着科学、商业以及政府各领域数据库的迅速发展,大量数据的处理问题也迫切需要解决。主要靠人进行数据分析的传统方法,已经不能直接应用于如今庞大的数据分析。人们迫切地需
空间视觉系统是宇宙空间探测的关键设备之一,对于系统中的每一台摄像机,其在成像过程中都需要建立自己的空间模型对空间图像进行采集,多个摄像机联合探索完成任务时,各自独立
分布式对象技术是当今计算机软件开发所采用的一种重要技术,与传统开发技术相比,分布式对象技术具有更好的开放性和扩展性。 论文首先介绍了分布式对象技术和CORBA技术,讨
IPv6协议是互联网的新一代通信协议,如何实现从IPv4到IPv6的过渡是IPv6发展过程中急需解决的关键问题.本文从IPv4向IPv6平滑迁移的几种过渡技术入手,提出过渡过程中的网络建
随着近年来多核处理器技术的发展,处理器上集成的核数量越来越多,这就要求程序员必须掌握并行程序的开发技术。各种并行开发模型已经比较成熟,如基于谷歌MapReduce思想和共享