论文部分内容阅读
机器翻译中的调序问题,即源语言和目标语言的语序不一致性是统计机器翻译研究的难点问题之一。语序的不一致主要表现在源语言和目标语言句法结构的差异性,如汉语为主-谓-宾结构(SVO),而日语为主-宾-谓(SOV)结构。句法结构的差异性使得统计机器翻译系统在翻译时,需要重构目标词或短语合理的位置,而非单纯的词到词或短语到短语的翻译。本文在基于短语的汉-英统计机器翻译系统的基础上,提出两种调序方法,利用语言之间的句法差异以及语义信息获取调序规则构建调序模型,提高统计机器翻译系统的性能。 本文首先提出了基于依存句法分析的调序方法,该方法根据中-英平行句对的词对齐信息与平行语料中源语言的依存句法分析树抽取得到特征并计算得到特征方向类型;然后通过最大熵分类器进行特征方向概率的计算,对得到的特征方向概率进行阈值限定,得到调序规则集;对源语言端的依存句法分析树从上至下遍历,若句法树结构与规则结构相同,则调整句法树的结构,得到调整后的新的依存句法分析树;将调整后的依存句法分析树还原成句子形式,得到调序后的源语言;最后利用调序后的语料进行翻译系统模型的训练。 在依存句法分析调序模型基础之上,本文还研究了基于神经网络的调序方法,该方法增加了更多的上下文信息,该方法考虑当前短语对与之前短语对之间短语的调序,该方法利用递归自动编码器得到短语的向量表示,并在递归自动编码的输出增加一个sotfmax层来进行短语对的方向分类,计算得到调序规则集,把得到的规则作为一个特征加入到对数线性模型中进行调序。 本课题从统计机器翻译调序问题出发,结合句法知识和语义学知识进行深入分析,研究了解决调序问题的两种模型。两种调序模型均采用Moses作为统计机器翻译系统,实验语料为汉-英FBIS数据集。实验结果表明,以BLEU为评价标准,本课题提出的两种调序模型构建的翻译系统性能均优于基线系统。