西里尔蒙古文—汉文机器翻译系统的实现

被引量 : 5次 | 上传用户:liu7605136
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多民族语言机器翻译的研究对维护我国民族地区的社会稳定和接受兄弟民族的先进技术、加强各民族交流、传承并发展民族文化等都具有极为重要的意义。西里尔蒙古文-汉文机器翻译研究面临语言类型跨度大、语言现象复杂、语言资源缺乏、少数民族语言信息处理基础技术薄弱等问题。其中复杂形态语言机器翻译建模、资源缺乏语言的机器翻译等问题也是机器翻译研究本身面临的重要学科问题。本文利用收集整理的多语言语言资源、知识资源及开源工具搭建了蒙汉统计机器翻译平台。在该研究中,为了提高基于统计的西里尔蒙古文-汉文机器翻译的性能和解决译文中出现的大量的未登录词,本文从以下几个方面进行了研究和实验:(1)建立近22万余句对的西里尔蒙古文-汉语双语语料库,在建立双语语料库的具体过程中拟定了西里尔蒙古文-汉语双语语料库建设标准。(2)建立西里尔蒙古语语料库的预处理步骤:如编码统一转换为UTF-8格式,缩略语转写,大小写转换等。(3)通过加入蒙-汉人名词典、地名词典及拼写数词、时间词的正则表达式规则来识别与翻译对命名实体进行有效的翻译。(4)对蒙古语格附加成分、复数词缀、领属附属附加成分的双重格进行详细分析,并进行粗粒度切分。其中命名实体的识别与翻译技术是提高蒙汉机器翻译的翻译正确率和有效解决未登录词以及进行蒙古文信息处理后续工作的重要基础。机器翻译中词语的歧义和未登录词是两大瓶颈,词语的歧义可以根据文章上下文进行区分;未登录词包括新名词术语和人名、地名、机关单位名称等命名实体。西里尔蒙古语中的歧义词有一部分为带有双重格的常用词。本文以基于短语的统计机器翻译为基础,着重研究解决粒度相适应的线性词语表示形式的机器翻译建模、非线性词语表示形式的机器翻译建模、面向资源缺乏语言的人机结合的机器翻译知识获取、蒙古文信息处理基础技术、语言资源库建设等问题,最终建立一个面向政府文献和日常用语两个领域的西里尔蒙古文-汉文的机器翻译系统。在收集整理双语语料库的基础上,我们利用根据开发集、测试集过滤后的训练集作为最终的训练集。并使用此训练集的目标语言端—汉语端训练了语言模型。我们在上述研究的基础上实现了西里尔蒙古文-汉文机器翻译系统并进行了评测实验。我们建立机器翻译项目的自动评测测试集的1000个句子,一份原文(西里尔蒙古文)、四份目标语言端句子(汉文)为参考答案。机器翻译项目的自动评测采用BLEU-SBP为评测指标。使用本系统进行翻译后的结果进行了评价,结果表明双语语料库的规模与语料库预处理是提升翻译质量的一种捷径。利用开源工具Moses系统实现了基于短语的蒙汉统计机器翻译系统。通过实验证明开源Moses系统实现的蒙汉统计机器翻译系统具有可行性。但是该蒙汉机器翻译系统还有很多方面需要改善和提高,比起高质量的机器翻译系统还存在许多不足之处,将会在今后的研究中不断的改善和完善。
其他文献
高校中国音乐史教育作为音乐教育的要素之一,本文研究了目前高校音乐教育中常用的3种教学形式,通过分析课程教学中存在的4种矛盾,提出了从教师、教材、教法3个方面对该课程进
在社会文明的进程中,每一次数学领域的重大突破,都成为科技进步的先导和基础,数学史上的里程碑也大多是科学发展史上的里程碑。本文主要论述了6B.C-17C数学方法的产生与演进
个性化推荐系统是解决电子商务迅猛发展带来的信息过载问题的有效工具,关于它的相关研究逐年递增。许多需要用到大量客户信息的“奢侈”推荐算法与客户隐私保护日益受关注相
<正>衡量一所大学办学水平和办学质量的重要标志之一是培养大学生的创新素质和创新能力[1]。现代医学教育特别是高等教育担负着培养医学人才的重任。现存的医学相关专业的教
回顾60多年我国金属制品产业发展的历程,虽然我国建立了世界金属制品大国的地位,但还存在着行业整体状况依然落后于发达国家,产业集中度低,规模化经济效应难以发挥,低端产品
汽车产业是一个前期投入非常大,对资金、技术、人才及市场都有很高要求的产业,因此其体现出一定的垄断特性。对一个城市来说,优化汽车产业是一个长期工程。历史经验表明,汽车
亚瑟王传奇是西方文学最重要的组成部分之一,对西方社会文化的影响巨大。在国外的研究已经相当成熟和系统的情况下,国内对其却缺乏应有的重视,不仅对中世纪亚瑟王传奇的大量
媒体竞争的增多和竞争激烈导致切分广告行业“蛋糕”的竞争也越来越激烈。蓝色光标的主要利润来源于广告客户,而当前网络广告在技术和形式上的不断推陈出新,使广告行业的市场
<正>"2008年全国中等职业学校汽车运用与维修技能大赛"于2008年6月28-29日在天津举行。本次大赛是2008年全国职业院校技能大赛的重要组成部分,也是继2007年全国中等职业学校"
采用扎根理论研究方法,以上海政府部门间信息共享为研究对象,以深度访谈收集的资料为基础,通过开放性译码、主轴译码和选择性译码,对电子政务环境下政府部门间信息共享影响因