基于多层次知识的机器翻译方法研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:bluebirdmengmeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是实现“沟通无国界”这一梦想的核心技术,长期以来一直受到学术界和工业界的广泛关注。然而,无论是统计机器翻译,还是发展速度较快的神经机器翻译,都还有一些问题有待解决,包括:如何提高稀缺资源翻译任务上的翻译效果、如何在神经机器翻译中使用统计机器翻译中证明有效的方法、如何有效地利用骨架知识指导翻译、如何有效地使用语言学知识优化译文质量。本文通过引入多层次知识来解决机器翻译中存在的上述问题,多层次知识主要包括中介语知识、泛化与短语知识、骨架知识、语言学知识。本文的研究内容包括以下四个方面:
  第一,提出了基于中介语知识的机器翻译方法。在稀缺资源翻译任务上,本文证实神经机器翻译模型无法表现出较好的翻译效果,与统计方法相比性能相差极大。因此,在稀缺资源翻译任务上,本文着重对基于统计的机器翻译方法进行研究。本文提出了词对齐优化的语料级中介语方法和基于解码生成的短语级中介语方法,用于构建外国语至汉语的机器翻译模型。本文使用基于最小错误率训练的方法对语料级和短语级的翻译结果进行融合,进一步提高了翻译质量。通过使用本文提出的方法成功构建了盂加拉语、泰米尔语、乌兹别克语、匈牙利语至汉语的机器翻译模型。
  第二,提出了基于泛化与短语知识的机器翻译方法。在统计机器翻译中,在泛化数据上进行模型训练的短语统计机器翻译模型的翻译质量显著地优于基于词的翻译模型,受到这一想法的启发,本文对神经机器翻译中的数据泛化方法和短语生成方法进行了深入的研究。为了缓解子词方法在未登录词和低频词翻译时出现的错译问题,本文提出了泛化数据结合子词方法的技术。在将泛化知识引入到神经机器翻译中,本文提出了一致性检测和解码优化的方法。在将短语知识引入到神经机器翻译中,本文提出了基于数据压缩算法的短语生成方法。神经机器翻译通过使用泛化和短语知识,获得了翻译质量的提升。
  第三,提出了基于骨架知识的机器翻译方法,将骨架知识同时引入到统计机器翻译和神经机器翻译中。在统计机器翻译中,本文方法生成的骨架短语对提供了译文端的局部翻译框架。通过在短语翻译表中使用翻译骨架的概念,经过分解、替换、生成操作,生成了骨架短语对。该方法显著地缓解了在已有的语料条件下短语对学习不充分的问题,学习到大量的高质量的骨架短语对,获得了翻译质量的提升;在神经机器翻译中,翻译骨架提供了译文端的全局翻译框架,可以将翻译问题转化为目标语言的填空问题。该方法通过额外的骨架编码器对翻译骨架进行建模,通过使用知识门阀和注意力门阀动态地控制解码过程中不同来源的知识对当前解码词汇贡献度的大小。从真正的翻译结果中可以看出,本文提出的基于骨架的神经机器翻译可以使用翻译骨架对翻译过程进行有效地指导,最终获得了翻译质量的提升。通过实验证实,当翻译骨架中真实词汇的数量上升时,翻译性能随之增长。
  第四,提出了基于语言学知识的机器翻译方法,将语言学知识同时引入到统计机器翻译和神经机器翻译中。在统计机器翻译中,通过对丢词现象进行分析,本文将丢词问题分为想要的丢词和不想要的丢词。继而,对于这两类丢词,本文使用基于最大熵的丢词模型进行解决,在最大熵方法训练丢词模型参数的过程中,通过知识块内嵌了词性、命名实体、浅层语义这三类语言学知识。在丢词问题上,实验结果证实,本文提出的方法显著地提高了译文的翻译质量;在神经机器翻译中,在对源语言词汇进行建模的同时,使用另外一个语言学编码器对语言学知识进行建模。该模型使用知识块对四种语言学知识进行建模,包括词性、命名实体、浅层语义、依存句法树,使用知识门阀和注意力门阀动态地控制从不同编码器传入到解码器的信息的多少。最终的实验结果证明,本文提出的方法有效地提高了机器翻译模型的翻译质量,明显地缓解了机器翻译中存在的丢词问题和译文结构混乱问题。
  基于本文提出的方法,我们成功开发了开源统计机器翻译系统NiuTrans和开源神经机器翻译系统LiNMT。NiuTrans在NTCIR、LoReHLT、CWMT等多项国内外机器翻译评测中获得了第一、第二名的成绩,LiNMT在CWMT2017英汉机器翻译任务上获得了第二名的成绩。
其他文献
文章首先介绍了射频激励CO激光器二十多年的发展历史及研究现状.接着从原理入手,给出射频激励CO激光器放电理论模型及放电腔的等效阻抗计算方法,分析了射频激励频率对激光器工作特性的影响,并介绍了射频激励CO激光器功率控制原理.然后,以25W射频激励CO激光器为例,论述了射频电源各部分的设计方法,给出了采用新型高频大功率晶体管放大器模块及以微带线作为阻抗匹配网络的新型电源设计方案,并对采用该设计电源的射
学位
随着数字图书馆等多媒体数据库的广泛应用,对多媒体数据库,特别是图像数据库的管理和查询成为制约这些应用的瓶颈,因此基于内容的图像检索成为人们研究的热点.由于基于内容的图像检索涉及到图像识别和多媒体数据库两个方面的知识.因此该文首先从图像识别出发,研究基于颜色和纹理的特征提取,然后从多媒体数据库出发,研究了面向对象的多媒体数据模型,最后设计了一个图像检索系统用来实现前面提出的算法.该文的重点在于:1.
学位
云计算作为一种新的高速网络计算服务受到越来越多的青睐,云计算技术广泛应用于通讯、交通、金融、制造等领域。通过实施任务的最优调度,充分利用现有资源实现任务的最快完成,是云计算中任务调度算法研究的目标。随着云计算的高速发展,云系统底层技术构架发生了明显变化,云系统结构越来越复杂,资源节点数量越来越多,不同云之间的差异性越来越明显。同时,用户数量多、行业普及、服务需求多、时效性期望高、数据海量且多样化等
学位
近年来,随着通信和位置感知技术的发展,基于位置的服务(Location Based Service,LBS)需求不断增加。位置预测是LBS的研究内容之一,在广告服务、位置导航等领域具有重要的应用。已有的位置预测方法多通过建立Markov位置预测模型和频繁轨迹挖掘来实现,尽管此类模型和方法可以较好地适用于GPS轨迹数据,可以有效地用于位置预测,但却存在模型阶数不好确定,轨迹挖掘过程只涉及轨迹数据本身
学位
近年来,伴随着互联网科技的迅猛发展,得益于低廉的维护和管理成本、可伸缩的软硬件配置和随时随地的便捷访问,越来越多的企业、组织、科研机构和个人将数据外包到云服务器。然而凡事具有两面性。在人们享受云存储带来的低成本和高效率的同时,数据安全性的问题随之而来。对于外包数据,用户失去了物理上的控制权。尽管云服务提供商会对数据提供一般性的保护,但此类手段完全依赖于厂商的信誉和技术水平,用户毫无掌控权。除此以外
学位
目标的位置与运动轨迹是无线传感器网络的基础信息,是基于位置服务实现的基础。卫星定位系统为室外环境下的目标定位与轨迹跟踪问题提供了解决方案。据统计,人类有80%以上的时间是在室内度过的,提供高精度的室内位置或者轨迹,是许多应用的基础。卫星无线信号会受到建筑物、墙壁等障碍物的严重影响,不能有效地在室内环境中工作。无线网络定位与轨迹跟踪问题涉及到计算机、通信、自动化与物理等多个学科的相关研究领域,为了提
随着互联网技术发展,信息的总量和增长速度严重超出了个人或传统的数据管理和分析方法所能接受、处理和有效利用的极限,引起信息过载问题。其中大多数信息过载问题源于非结构化文本数据,例如,社交媒体文本、网页、新闻文档以及学术论文等。因此,从大量文本数据中自动发现知识的文本挖掘和分析技术引起了学术界和工业界极大的研究兴趣和热度,成为大数据时代数据挖掘和自然语言处理领域的核心研究问题。  由于短语是自然、低歧
学位
行人检测技术应用于计算机视觉的多个领域,如视频监控、动作行为分析、汽车辅助驾驶、机器人控制等,具有广泛的应用前景和研究价值。多年来,行人检测技术取得了一定的研究成果,但由于行人较大的类内差异和场景的复杂性,仍然存在很多未很好解决的问题,需要进一步的研究。本文进行行人检测算法的研究选择了预处理环节、基于部位建模的分类器和自适应场景的模型推荐三个角度,并提出了改进方案。本文的主要研究工作和成果体现在以
学位
近年来,随着众多社会媒体平台的诞生和发展,其作为一种在线用户交互的工具,正在越来越深刻地改变着人们的工作、生活和交流方式,同时也生成了海量的用户信息。广大用户在社会媒体中所生成的大量文本文件,已经成为大数据研究领域最具代表性的数据资源之一,对这些用户生成的文本数据进行研究有着广泛的学术和商业价值。社会媒体文本研究作为一种对社会媒体中大规模数据在不同应用上进行分析、处理、归纳和推理的信息处理技术,近
学位
随着语义Web技术的不断发展和应用,万维网上充满了大量可读取、可被机器理解和处理的RDF数据,RDF数据关键字查询问题的研究已经成为当今语义Web研究的一个热点。无论是终端用户还是应用系统,都有着对RDF数据进行查询的需求。但是,RDF数据的标准查询语言SPARQL对于普通用户来说过于复杂,用户既不了解SPARQL查询的语法和语义,更没有掌握待查询的RDF数据的模式信息。因此,本文提出一种基于查询