论文部分内容阅读
随着我国经济、贸易、文化、教育等各个方面飞速发展,跨地区、跨民族的交流与合作越来越密切。不同民族之间的交流对翻译存在巨大的需求。近些年来,我国内蒙古自治区的经济发展十分迅猛,越来越多的企业与个人来到内蒙古地区进行贸易活动。这使得人们对传统蒙古文到汉文之间的翻译的需求越来越大。然而,人工翻译满足不了快速膨胀的需求,因此必须借助统计机器翻译技术。目前主流的统计机器翻译方法包括:基于短语的机器翻译、基于层次短语的机器翻译、基于句法树的机器翻译等。目前,传统蒙古文-汉文的机器翻译发展得还不是很成熟。因此,本文针对传统蒙古文-汉文翻译中的特点,对基于统计的蒙-汉机器翻译方法进行了研究。首先,为了解决蒙-汉语言结构差异大、在翻译中普遍存在长距离调序等问题,本文对基于层次短语的统计机器翻译模型进行了深入的研究。之后,本文实现了一套基于层次短语的蒙-汉统计机器翻译系统。该系统可以从未经人工标注的平行语料中自动学习加权的同步上下文无关文法(WSCFG),并利用该同步文法以及基于改进的CKY的解码算法进行高效的蒙-汉翻译。除此之外,针对蒙-汉统计机器翻译平行语料中拼写错误较多的问题,本文提出了一种基于统计翻译框架的传统蒙古文自动拼写校对方法。该方法将拼写校对的过程看作是一种翻译的过程,并引入统计翻译模型进行拼写校对。该方法的校准率最高可以达到97%以上。在最终的翻译对比实验中,本文使用这种方法对基于短语和基于层次短语的蒙-汉机器翻译的训练语料进行的拼写校对。该方法有效缓解了数据的稀疏问题,从而对翻译模型的训练提供了很大的帮助。最终的对比实验表明,比起传统的基于短语的翻译模型,基于层次短语的统计机器翻译模型更加适合从传统蒙古文到汉文的翻译任务,测试集在BLEU值上得到1个百分点的提高。同时,在这两种翻译系统上嵌入的本文提出的拼写校对系统,翻译结果均有不同程度的提升。