论文部分内容阅读
层次短语翻译模型是具有代表性的统计机器翻译模型。它属于形式句法模型,使用同步上下文无关语法进行译文的生成,既能兼容短语模型中的所有短语翻译,同时也如语言学句法模型一样具有较好的泛化能力和长距离调序能力。因此,层次短语成为了统计机器翻译研究中最受关注的模型之一。
本文以基于层次短语的翻译系统作为切入点,通过对此系统的深入分析,进而研究传统的统计机器翻译系统框架中存在的问题。我们重点研究了词法分析、文档分析和大规模判别式训练三个方面的问题,取得了如下研究成果:
1.联合词法分析和翻译
传统的翻译系统中,词法分析和翻译分两步进行,翻译过程以词法分析的1-best结果作为输入。然而对于大多数语言,词法分析包含歧义并存在错误。因而,在分步的方式下,词法分析的错误可能导致进一步的翻译错误,造成错误的传播和放大。为此,我们提出了联合的方法,同步进行词法分析和翻译。我们的联合解码器融合了词法分析特征和翻译特征,以原子结构(如字序列)作为输入,同时生成源语言端的单词序列和目标语言端的翻译结果。实验表明,联合方法在汉英和韩汉的翻译任务上都能显著的提高翻译效果。同时,作为一个词法分析器,我们的联合解码器在中文分词任务上的准确率也超过了目前流行的的分词工具。此外,此系统还参加了国际知名的口语翻译评测IWSLT2010年汉英方向的比赛,并获得了第一名的好成绩。
2.面向层次短语的主题相似度模型
传统的翻译系统忽略了文档级别的主题信息,鉴于此信息的重要性,近来有研究者将主题信息引入到单词间的翻译中。然而,统计机器翻译早已从基于词的模型发展到基于句法的模型。为此我们提出了面向层次短语的主题相似度模型,从而在翻译规则的级别上运用主题信息。本方法为每条同步翻译规则估计一个主题分布,然后根据规则的主题分布和文档的主题分布之间的相似程度进行规则选择。实验表明,相比传统的翻译系统和基于主题的词语翻译方法,我们的方法都能产生更好的翻译结果。
3.面向大规模判别式训练的翻译森林快速生成方法
虽然判别式训练能够方便的融入大量的非独立的特征,从而提高统计机器翻译的性能。然而,由于解码复杂度的限制,传统的翻译训练算法难于扩展到大规模数据上。为此,我们提出一种新颖的翻译森林快速生成方法,通过词语对齐,我们的算法在线性的时间内生成训练所需的翻译森林。同时,我们的方法保证翻译森林中总是存在能够生成参考译文的推导,从而避免了传统方法中经验性的最佳译文选择问题。实验表明,我们的方法能够快速有效的在大规模的语料上训练数百万的特征,并显著的提高翻译的质量。