统计机器翻译调序模型研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:sz_davild
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译中的调序问题,即源语言和目标语言的语序不一致性是统计机器翻译研究的难点问题之一。语序的不一致主要表现在源语言和目标语言句法结构的差异性,如汉语为主-谓-宾结构(SVO),而日语为主-宾-谓(SOV)结构。句法结构的差异性使得统计机器翻译系统在翻译时,需要重构目标词或短语合理的位置,而非单纯的词到词或短语到短语的翻译。本文在基于短语的汉-英统计机器翻译系统的基础上,提出两种调序方法,利用语言之间的句法差异以及语义信息获取调序规则构建调序模型,提高统计机器翻译系统的性能。  本文首先提出了基于依存句法分析的调序方法,该方法根据中-英平行句对的词对齐信息与平行语料中源语言的依存句法分析树抽取得到特征并计算得到特征方向类型;然后通过最大熵分类器进行特征方向概率的计算,对得到的特征方向概率进行阈值限定,得到调序规则集;对源语言端的依存句法分析树从上至下遍历,若句法树结构与规则结构相同,则调整句法树的结构,得到调整后的新的依存句法分析树;将调整后的依存句法分析树还原成句子形式,得到调序后的源语言;最后利用调序后的语料进行翻译系统模型的训练。  在依存句法分析调序模型基础之上,本文还研究了基于神经网络的调序方法,该方法增加了更多的上下文信息,该方法考虑当前短语对与之前短语对之间短语的调序,该方法利用递归自动编码器得到短语的向量表示,并在递归自动编码的输出增加一个sotfmax层来进行短语对的方向分类,计算得到调序规则集,把得到的规则作为一个特征加入到对数线性模型中进行调序。  本课题从统计机器翻译调序问题出发,结合句法知识和语义学知识进行深入分析,研究了解决调序问题的两种模型。两种调序模型均采用Moses作为统计机器翻译系统,实验语料为汉-英FBIS数据集。实验结果表明,以BLEU为评价标准,本课题提出的两种调序模型构建的翻译系统性能均优于基线系统。
其他文献
实际工业系统中,时滞和不确定性是普遍存在的现象,且往往是系统不稳定和性能变差的根源。对不确定时滞系统进行分析和综合一直是控制理论与工程应用领域的研究热点。线性时滞系
冶金行业是典型的高能耗行业,其能耗占全国能源消费总量的10%以上,占本行业生产成本的30%左右。空分装置为AOD炉生产中、低、微碳铬铁提供所需的氧气,是冶金行业的一个重要组成部
无线传感器网络作为微型化设备和无线通信相结合的产物,已在地理、生物、监视、故障检测等科学领域和工程应用中得到了广泛的探索和研究。由于节点的能量供应有限,能量约束问
光伏水泵系统具有清洁无污染、系统自动化程度高、系统的输出与光照强度一致、安全可靠无需人员值守等优点,非常适合广大农村地区和城市的自然景观区域。太阳能资源的开发利用
本论文提出了一种基于典型相关分析(CCA)的图像/视频错误隐藏算法,因受到H.264/AVC帧内预测编码的启发,可知图像/视频数据空域数据存在很大的相关性(即丢失数据与其相邻空域数
增强现实是将现实环境和虚拟图像进行适当合成的技术,与此相对应的是虚拟现实技术,则是将用户放置在一个完全人造的世界之中。增强现实在真实场景的基础上叠加信息:通常是将
本论文主要研究一类基于Takagi-Sugeno (T-S)模型的非线性时滞系统的稳定性和滤波器(及控制器)的设计问题。研究的主要内容包括以下三个部分:第一部分:考虑一类基于T-S模型的
随着经济的高速发展,城市汽车保有量急剧增加,城市道路建设远落后于经济的发展,城市道路变得越来越拥挤,引入城市智能交通系统(Intelligent Transport System,简称ITS)能有效
瓦斯对煤矿企业的安全生产影响巨大,一旦发生瓦斯爆炸,后果不堪设想,因而有必要对瓦斯涌出量预测方法进行研究。瓦斯涌出量的高精度预测是提高瓦斯防治、瓦斯治理的重要措施,
近年来随着锗在航空航天、红外光学、国防工业等领域中发挥着越来越出色的作用,锗的需求量也日益增多。因此,当今社会要批量生产一定规格的锗单晶。在制备过程中,如何能够准确、