最大熵模型的改进及其在机器翻译领域的应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:chwu9423
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
海量数据的出现给很多应用领域带来革命性影响,同时也在深刻地改变着理论研究的发展方向。本文主要关注传统最大熵模型在海量数据应用下的改进方案,及其在机器翻译领域中的实际应用。最大熵模型是自然语言处理领域中应用最广泛的分类模型。理论上已经证明了该模型在运用于二值特征分类时的最优性。然而,在海量数据情境下,数据所特有的长尾效应会给最大熵分类建模带来困难。在模型训练时,高维的特征空间会引入大量特征权重参数,而大多数特征在样本中的出现次数过少,这导致相当一部分特征权重参数难以被准确估计。为了解决以上问题,本文作者提出了最大熵模型的改进方案----层次最大熵模型。该模型采用分层量权的方法,通过将特征归类并引入特征类别权重,解决了模型参数空间过大的问题;通过直接引入特征的样本统计量作为特征权重的估计,解决了小样本特征权重难以估计的问题。在实际工作中,改进后的模型取得了较好的分类效果。  本文对层次最大熵模型在机器翻译领域的应用进行了研究:⑴改进中-英机器译文语序据统计,语序混乱是目前机器译文最常发生的错误之一。在中英互译时,两种语言语法习惯上的差异造成了大量的翻译时短语调整。在对相关语序混乱问题作深入分析后,作者改进了翻译系统中传统的MSD词汇化调序模型,提出了专用于中英互译的MLR调序模型。在进一步观察到英译中方向上大部分语序混乱由介词短语引起后,作者将介词短语调序抽象为分类问题并用层次最大熵模型进行建模。基于该模型对介词短语归属的预测,作者得以通过预调序的方式较精确地安排介词短语在译文中的位置,从而改善译文词序。在NIST评测集上的实验结果证明了工作的有效性。⑵改进系统翻译效率随着互联网上机器翻译相关的用户请求呈爆发式增长,翻译系统的效率问题越来越受到人们的关注。层次短语翻译系统的翻译算法基于传统的CKY算法,需要对大量的子句作分析,因而算法复杂度较高,而最终的翻译结果仅与很少一部分子句相关。基于上述观察,作者建立层次最大熵分类器对子句的有效性作定量的评估,并基于评估结果提出相关剪枝策略,使得系统减少甚至取消对无效子句的分析工作。通过上述方法,本文工作在NIST评测集上使得系统翻译效率加倍。上述工作均涉及到海量数据的分析与处理。相关实验证明,相较于传统模型,层次最大熵分类模型在训练效率和预测精度上均有一定的优势。本文相关工作已在网易有道商用机器翻译系统中得到了成功应用。
其他文献
鞍山市水利局水利信息网包括市水利局办公大楼局域网,并通过远程服务器连接海城、台安、岫岩、千山四个远程工作站,同时,通过路由器与辽宁省水利厅信息网和鞍山气象局连接.鞍
学位
该论文通过分析和比较各种宽带技术的特性,并结合已有过的监控系统的框架,采用基于ATM技术的BISDN网络体系.文中对各种压缩的国际标准进行了细致的分析和研究,并针对了通信电
模糊神经网络的函数逼近理论是研究模糊神经网络的基本理论问题,是考察模糊神经网络计算能力的必要途径,也是应用模糊神经网络解决实际问题所必须考虑的前期工作.(模糊)神经
存储区域网(Storage Area Network—SAN)为满足日益增长的数据存储提供了坚实的基础,但与传统网络相比,存储区域网的构成和管理更加复杂,因此必须提供高效的网络管理方案,才能充
客户关系管理(CRM——CustomerRelationshipManagement)是适应现代管理思想发展起来的一种新型管理模式.作者对CRM以及相关领域进行了比较深入的研究,在阐述CRM及其相关的关
该论文以国家高性能计算中心(西安)的建设为背景,分析了网格和网格入口的概念和基本技术,讨论了网格节点应提供的功能;对国际上正在开展的网格入口的研究进行了分析和评价;在此
在开放分布式环境下多Agent协同工作系统中,可以使计算机资源(硬件、软件、数据仓库、知识库等)实现真正的、最大的共享.不同历史时期及不同设备上的硬、软件资源,尤其是用不
学位
该文从属性的重要性和频度两个角度出发提出了一种结合二者的启发式约简算法,该算法以核和用户的偏好属性集为约简的基础,在结合二者优点的同时不仅利用了核的广泛性(核是所