改进汉英统计机器翻译模型的教学方法研究

被引量 : 0次 | 上传用户:ode
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计机器翻译方法经历了从传统的规则到噪声信道模型,再到对数线性模型的转变。在诸多统计机器翻译技术中,基于短语的最小错误率训练是一种被广泛采用的统计翻译方法。本文依据数学原理,提出三种改进统计机器翻译系统的方法:(1)基于非平行语料的半监督传导学习(2)基于赫夫曼编码的解码算法(3)带约束条件的最小错误率训练。在基于短语的统计机器翻译系统Moses基础上应用上述三种方法进行汉英翻译实验,其中,带约束条件的最小错误率训练使得机器翻译系统性能得到显著提高。  本文在半监督传导学习方法的框架下,利用网上可以自由获取的非平行可比双语语料,通过迭代方法增加训练语料的规模,使得机器翻译系统可以用于平行语料较少的语言对。这种方法为统计机器翻译系统获取训练语料开辟了一个崭新的思路。  另外,还应用传统的赫夫曼编码树技术,改进已有的栈解码算法。这种方法通过使用合并策略而不是扩展策略生成新的假设,可以提高解码算法的效率,节约存储空间。实验结果表明,赫夫曼解码可以在保证译文质量的前提下,降低解码算法的时间复杂度,将解码速度提升16倍,使得统计机器翻译系统可以更加适应于对大规模数据的快速翻译。  根据贝叶斯公式,组成模型的各个函数之间存在独立性假设。然而,由于被用于描述语言现象的不同侧面,模型的部分函数之间有着必然的联系。在最小错误率模型的基础上,提出带约束条件的函数决策公式。函数之间的条件概率关系被做为约束条件加入翻译模型,从而在训练参数时,增强函数之间的关联性。  实验结果表明,函数决策公式的约束条件对统计机器翻译系统通过训练生成的参数产生影响。通过函数之间的约束条件调节,可以获得多个满足译文最小错误率的局部最优点。数百次的实验表明,开发测试集获得的约束条件参数能够显著提高系统在最终测试集上的评测结果。因此,适当的约束条件有助于基于最小错误率训练的翻译系统性能的提高。  以往的噪声信道模型、最大熵模型和最小错误率模型所依据的最优化函数都是无约束的。这种加入约束条件的方法在不增加系统的内存空间和执行时间的情况下,能够和各种改进最小错误率训练的方法一起使用,兼容性强,因此可以被广泛应用于统计机器翻译系统中。约束条件的加入使得机器翻译系统的模型参数更加适应测试语料,在没有使用其他外部资源(句法知识、人工规则等)的情况下,系统性能得到提高。只要找到更适合的约束条件,就有可能进一步提高统计机器翻译的性能,说明这种方法有广阔的发展空间。  综上所述,数学方法的改进对统计机器翻译系统至关重要。面对大规模的语言知识和统计数据,更好的数学模型能够帮助统计机器翻译系统更有效地整合各种信息,输出高质量的译文并降低系统执行所占用的时间和空间。
其他文献
《汉文》是韩国中学的独立科目,相当于中国的文言文。该科目课程标准以翻译和理解语句为主,不重视语法分析,以至于出现注解错误和混淆等问题,影响学生对课文的正确理解以及教师讲
动词在句法成分中占很重要的地位,人们对动词的研究从未停歇过。20世纪80年代以来,汉语语法学界加强了汉语动词特定义类的研究,但多数是从动词角度研究不同语义的动词和宾语的搭