论文部分内容阅读
随着Internet的迅速普及,机器翻译显示了日益广阔的应用前景。当前统计机器翻译的研究主要针对英语、法语、德语或其他西方语言之间的翻译,本文研究了统计机器翻译原理和技术,并在此基础上构建了一个基于统计的汉英机器翻译系统原型。我们的工作主要包括两部分:1、研究了基于单词对齐模型的汉英统计机器翻译,这部分的研究采用了基于信源信道模型的统计机器翻译方法,该方法是当前统计机器翻译研究中应用最广的方法。2、基于短语对齐模型的汉英统计机器翻译研究,这部分以第一部分工作为基础。在基于单词对齐模型的汉英机器翻译研究中,我们采用了IBM对齐模型。已有的研究表明,IBM的五个模型中,模型4的对齐效果最好,所以我们的研究以IBM模型4为基础。主要工作包括:构建汉英翻译模型、构建英语语言模型、实现解码器。具体如下:1)构建汉英翻译模型。在构建翻译模型时引入了词性信息,实验显示,引入词性信息后,提高了单词对齐的质量,参数更准确,在改进后的模型上进行搜索得到的译文质量更优。2)实现了A*和beam搜索算法。对A*搜索算法和beam算法的实验数据进行了对比,结果显示A*搜索算法在汉英统计机器翻译中表现更好。3)对A*搜索算法进行改进。A*搜索算法只扩展分值最优的结点,而汉语和英语是差别非常大的语言,在汉英机器翻译中,仅扩展最优结点会导致错误的方向,漏掉质量更好的译文。因此我们对算法进行了改进,引入了宽度搜索,为选择扩展结点制定了启发策略。实验结果显示,改进后的算法生成译文的质量有了较明显提高。4)在汉英统计机器翻译中,空单词对某些翻译的影响是非常大的。所以针对汉英翻译,对有关空单词的翻译模型进行了修改,通过实验显示,这种改进缓解了空单词对汉英翻译的不利影响。5)此外,我们通过实验对影响翻译的一些参数进行了分析,这些参数包括为汉语词选择候选英语单词的范围、A*搜索算法中假设队列的长度等,并通过实验对这些参数进行了设置。因为单词对齐模型没有考虑上下文的意义,其缺陷很明显,所以当前基于短语对齐模型的统计机器翻译成了研究的热点。我们在前面工作的基础上,进行了基于短语对齐模型的汉英统计机器翻译的研究,主要有以下工作:1)设计了将基于IBM模型训练得到的Viterbi对齐与使用集中切分和短语对齐算法(ISA)相结合的方法进行单词对齐,实验表明该方法进一步提高了训练语料单词对齐的正确率。2)我们在使用ISA算法时,通过实验为单点互信息(MI)设定了计算公式,并根据实验效果设置了MI的阀值。3)设计了使用词性信息构建对齐模板的方法。4)通过提高单词对齐的正确率,我们从训练语料中抽取了大量的短语实例,这使得在翻译过程中可以使用基于翻译记忆的方法。5)我们从训练语料中抽取了模板,翻译时先匹配模板,然后我们以IBM模型4为基础评估译文的质量,衡量译文的优劣,选出最优的译文。6)通过实验表明:由于抽取的短语实例质量较高,所以引入了翻译记忆的方法,提高了短语的翻译质量;并且通过采用对齐模板考虑了上下文的语义,在一定程度上克服了单词对齐模型在这方面的缺陷,提高了翻译的效率和正确率。