基于层次短语模型的蒙—汉统计机器翻译研究

被引量 : 19次 | 上传用户:alanzou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国经济、贸易、文化、教育等各个方面飞速发展,跨地区、跨民族的交流与合作越来越密切。不同民族之间的交流对翻译存在巨大的需求。近些年来,我国内蒙古自治区的经济发展十分迅猛,越来越多的企业与个人来到内蒙古地区进行贸易活动。这使得人们对传统蒙古文到汉文之间的翻译的需求越来越大。然而,人工翻译满足不了快速膨胀的需求,因此必须借助统计机器翻译技术。目前主流的统计机器翻译方法包括:基于短语的机器翻译、基于层次短语的机器翻译、基于句法树的机器翻译等。目前,传统蒙古文-汉文的机器翻译发展得还不是很成熟。因此,本文针对传统蒙古文-汉文翻译中的特点,对基于统计的蒙-汉机器翻译方法进行了研究。首先,为了解决蒙-汉语言结构差异大、在翻译中普遍存在长距离调序等问题,本文对基于层次短语的统计机器翻译模型进行了深入的研究。之后,本文实现了一套基于层次短语的蒙-汉统计机器翻译系统。该系统可以从未经人工标注的平行语料中自动学习加权的同步上下文无关文法(WSCFG),并利用该同步文法以及基于改进的CKY的解码算法进行高效的蒙-汉翻译。除此之外,针对蒙-汉统计机器翻译平行语料中拼写错误较多的问题,本文提出了一种基于统计翻译框架的传统蒙古文自动拼写校对方法。该方法将拼写校对的过程看作是一种翻译的过程,并引入统计翻译模型进行拼写校对。该方法的校准率最高可以达到97%以上。在最终的翻译对比实验中,本文使用这种方法对基于短语和基于层次短语的蒙-汉机器翻译的训练语料进行的拼写校对。该方法有效缓解了数据的稀疏问题,从而对翻译模型的训练提供了很大的帮助。最终的对比实验表明,比起传统的基于短语的翻译模型,基于层次短语的统计机器翻译模型更加适合从传统蒙古文到汉文的翻译任务,测试集在BLEU值上得到1个百分点的提高。同时,在这两种翻译系统上嵌入的本文提出的拼写校对系统,翻译结果均有不同程度的提升。
其他文献
劳务派遣这种用工形式最早起源于欧洲,是市场经济环境下,社会分工不断精细的产物。在我国,劳务派遣虽然被引入不到二十年的时间,但已经有了较大规模的发展。劳务派遣具有不占
谣谚是民间口头文学的重要组成部分,也是中国文化宝库的遗产之一。它是古代文学体式之一,代表着中国民间文学和文化特色,也影响着中国文学和文化。从近代、现代起对它的研究
清代币制沿用明制,货币以白银和制钱为主,银钱并用。除国家收支与大额贸易用银两外,民间小额贸易则大量使用制钱,因此,与银两相比,制钱与百姓日常生活联系更为密切,制钱的铸造和流通
三相电压是否对称是判断电能质量好坏的一个重要参数,这对用电设备能否安全稳定工作有很大的影响。由于分布式发电(如风力发电或光伏发电)会出现离网带不对称负载工作状态以
河西走廊是丝绸之路的重要一段,该地区遍布着一种由硫酸盐为主的硫酸(或亚硫酸)盐渍土,该种盐渍土有溶陷、膨胀、吸湿、腐蚀等特性,对建筑物有着很大的危害,目前河西地区进行
视觉文化强大的冲击力和普遍的存在性使得视觉时代人的认知方式与价值观念都发生了巨大的转变,这也在某种程度上影响了语文教学,改变着语文教育的内容和方式,在培养学生的多感官
中学阶段选修课程的开设已有一百多年的历史。选修课程的开设,是国际国内高中阶段课程发展的必然趋势,是世界各国课程改革的重要举措。2003年3月,教育部印发了《普通高中课程
铜是人体必需的微量元素之一,在人体细胞代谢中起着举足轻重的作用。近年来,铜配合物因其新颖独特的结构和性能而备受关注,并且已经证实一些铜配合物表现出明显的广谱抗肿瘤
本文通过分析杭政办函[2008]128号《关于杭州市主城区供热方式调整总体方案》的通知下发后.杭州市主城区集中供热方式的现状和在实施调整中暴露出的问题,阐述杭州市主城区今后
渠道防渗损失是衡量灌渠输水效率的一个重要指标,输水损失的估算,对于评估渠道状况和输水利用水平具有积极意义。论述了对有防渗层渠道渗漏、无防渗层渠道渗漏两种情况下的输
期刊