基于平行迁移和对比学习的低资源机器翻译方法研究

来源 :徐旻涵 | 被引量 : 0次 | 上传用户:thinkcell
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
低资源机器翻译是目前机器翻译领域的重要研究热点之一。机器翻译模型的完备训练需要大规模的平行或可比较的语言学资源,然而,在实用过程当中,这类语言学资源往往相对匮乏。特别是小语种和稀缺语种并不具备平行或可比较的语言学资源。由于欠缺这类语言学资源,机器翻译模型无法充分掌握特定语言的语义、语用和语法的翻译特征,使得借助监督学习形成的机器翻译模型无法提供高质量的译文。本文针对低资源场景下词义级和句子级的互译知识缺失两项问题开展研究。本文针对上述问题一共开展三项研究,其中,前两个研究内容针对词义级互译知识缺失问题,第三个研究内容针对句子级互译知识缺失问题。具体研究内容如下:1)单词对齐是机器翻译的基础任务之一。在低资源场景下,平行语料的缺乏会导致模型无法捕捉两种语言之间语义相近的词,即语义级的词对齐性能偏低。词对齐的性能不高将直接影响后续翻译过程的性能。因此,本文首先针对低资源场景下的词对齐开展研究,其动机是词对齐的准确率提升有助于句子级别的机器翻译任务。具体地,本文提出一种基于语境表示和双语词典的词对齐方法,其利用预训练模型中的上下文语义和双语词典,帮助词对齐模型在理解词义的基础上,引入上下文信息,借以提升词对齐准确率以及后续的翻译质量。2)在低资源场景下,迁移学习有助于提升翻译模型的性能。这类方法在高资源语言(比如,英语和德语)上训练父母翻译模型,并在此基础上,将其迁移到低资源语言的翻译学习过程当中,使其从一个较高的学习起点开始,进一步训练孩子翻译模型。其中,底层分布式表示迁移(Embedding Transfer)是常用的方法之一,其在父母模型和孩子模型之间建立了一种针对相同子词(Sub-Word)的迁移机制,即将相同子词的分布式语义表示直接进行克隆。这类方法虽然迁移了父母模型的翻译知识,但是在词表差异较大的情况下,相应的迁移效果并不理想。本文针对这个问题开展研究,即提出一种基于跨语言子词语义迁移的低资源机器翻译优化方法。该方法在克隆相同子词的分布式表示的基础上,同时克隆词义相近的子词的分布式表示,该方法有助于进一步扩大低资源场景下孩子模型初始的翻译知识。3)平行数据的稀缺影响了翻译模型对语义的理解。针对这一问题,本文提出一种基于对比学习的低资源神经机器翻译方法,其通过数据增强和对比学习改进翻译模型。具体地,该方法在应用对比学习过程中能够保证互译句对向量表示的一致性,同时对非互译句对的向量表示进行差异化的修正,以此增强翻译模型对句子整体的语义理解,提升最终的翻译性能。本文针对低资源场景下词义级和句子级的互译知识缺失两项问题开展研究,分别提出了一种基于语境表示和双语词典的词对齐方法,一种基于跨语言子词语义迁移的低资源机器翻译优化方法,以及一种基于对比学习的低资源神经机器翻译方法。本文在国际权威数据集(WPT 2005、ALT、PAN Localization BPPT和WMT17新闻翻译任务)上对上述方法进行测试。实验结果显示,上述基于语境表示和双语词典的词对齐模型在WPT2005词对齐数据集上,获得了显著的性能优势。具体地,面向英语-法语和英语-罗马尼亚语,其词对齐错误率(AER)分别降低了 3.5%和2.0%;基于跨语言子词语义迁移的低资源机器翻译优化方法在ALT的缅甸语-英语翻译场景、PAN Localization BPPT的印度尼西亚语-英语翻译场景和WMT17新闻翻译任务的土耳其-英语翻译场景上的BLEU性能分别提升了 2.0%、2.0%和1.1%;基于对比学习的低资源神经机器翻译模型在ALT的缅甸语-英语翻译场景、PAN Localization BPPT的印度尼西亚语-英语翻译场景和WMT17新闻翻译任务的土耳其-英语翻译场景上的BLEU 性能分别提升了 1.12%、2.48%和 0.59%。
其他文献
鼻腔内机械振荡刺激(iMVS)是一种无创神经刺激技术。本研究以脑电(EEG)相对功率以及EEG有效连接分析iMVS对于健康人群的效用机制。本研究采用的刺激系统由刺激信号发生器和振荡器组成。信号发生器生成振荡信号,并驱动振荡器对鼻粘膜施加振荡。本研究依照随机单盲对照实验的范式设计实验。研究招募了22名健康成年人并随机、平均分为实验组与对照组。对11名实验组被试者两侧鼻腔各进行10分钟的iMVS,其余
学位
目的:通过代谢组学的方法,找出巨噬细胞在氧糖剥夺(Oxygen and Glucose Deprivation,OGD)条件下相较常氧常糖条件所产生的差异代谢物及其所富集的代谢通路。并讨论巨噬细胞在氧糖剥夺下所产生的差异代谢物的意义。方法:先将巨噬细胞分为常氧常糖组与氧糖剥夺组,利用超高性能液相色谱与质谱联用技术(UPLC-MS)初步分析两组代谢物的成分,再通过多元统计分析构建常氧常糖组与氧糖剥夺
学位
基于闪存的固态硬盘(Solid State Drive,SSD)相比传统机械硬盘性能更加优越,在现实中在逐渐替代机械硬盘。闪存技术不断发展,研究人员设计出一种在传统平面式闪存(2D闪存)的基础之上进行多层垂直堆叠的新型闪存(3D闪存)。3D闪存拥有更高的存储密度。但是尽管如此,在3D闪存写入过程中写性能表现不稳定。主要原因在于,在频繁的写入过程中,由于闪存非覆盖写的特性,对于写入数据未达到单页闪存
学位
耕地保护是涉及国家安全的大事,关乎14亿人生存问题,关乎中华民族子孙后代永续发展,不能有任何闪失。然而伴随着我国工业化、信息化、城镇化发展进程,农用地被大量侵占,特别是农村乱占耕地建房行为,触碰耕地保护红线,威胁国家粮食安全。2015年习近平总书记在对耕地保护工作作出重要指示时强调“耕地是我国最为宝贵的资源。我国人多地少的基本国情,决定了我们必须把关系十几亿人吃饭大事的耕地保护好,绝不能有闪失。”
学位
顾炎武的教化思想是顾炎武哲学的重要组成部分。对顾炎武教化思想的研究,首先要了解他的人生经历。顾炎武一生波澜壮阔,这与其毕生所致力于的“反清复明”的爱国斗争息息相关。无论是早年的复社时期,还是中年太湖之滨的抗清岁月,乃至晚年被迫北游的流亡经历,都不可磨灭他心中抗清复明的希望。其“修己治人”的实学思想和“明道救世”的天下观,正是基于他坚贞不屈的反清复明信念。本文结合对“教化”概念内涵的探析,重点探讨和
学位
生与死是每个生命都必须独自面对的事件,生死问题引发的思考从古至今、东方西方都未中断。关于生与死的论述,不仅关乎对生死的理解,更涉及对所处世界的理解。在我国先秦著作中,《庄子》的生死思想最为丰富,角度最为独特。深入研究《庄子》的生死思想,不仅可以帮助我们更好地理解《庄子》思想,还可以为我们当下构建合理的生死观念提供学理上的支持。传统的研究,大多直接从《庄子》本体论、价值论、功夫论这三个方面依次论述《
学位
税务人员是一类特殊的公务员群体,他们拥有更多的行政权力,承担着更多的服务职能,近年来税务人员职业伦理相关问题时有曝光,不仅降低了税务部门的公信力,也影响了社会对政府的信任感。因此,如何找出影响税务人员职业伦理水平的多种因素,从而让税务部门更有导向性地去施行职业伦理建设,是当前亟需去解决的问题。本研究首先系统梳理了国内外公务员职业伦理方面的研究文献,对税务人员、职业伦理、行政责任相关概念进行了界定,
学位
2020年底,我国脱贫攻坚战取得全面胜利,“三农工作”的重心历史性转向乡村振兴。乡村振兴集乡村产业、人才、文化、生态和组织“五大振兴”为一体,涵盖乡村产业兴旺、生态宜居环境、乡风文明建设、基层有效治理、农民生活富裕等优势,已成为当前农村工作的重中之重,其中产业振兴也将代替产业扶贫,继续发挥产业带动作用。当前,实施乡村产业振兴项目是地方政府贯彻实施乡村振兴国家战略的主要举措之一。连云港市G县是苏北地
学位
民兵是中国共产党领导的、在长期革命战争中逐步发展起来的、不脱离生产的群众武装组织,是中国军队的重要组成部分,是中国人民解放军的预备役部队,它同样肩负着保家卫国的神圣使命。无论战争形式和军队装备发生任何的变化,人民军队的基本属性是永远不会发生变化的。“兵民是胜利之本”。加强民兵队伍的建设和管理,是以习近平同志为核心的党中央始终重视的军队建设和国家安全的重要内容。加快并深化民兵队伍建设管理的调整转型,
学位
物联网为人们的日常工作和生活带来了诸多变化,成为了人们生活中重要的一部分。随着物联网的快速发展,物联设备的数量飞速增长,在万物互联的时代,特别是近几年兴起的边缘网络计算模型使得物联网可以更好的为人们提供服务。与此同时,防御能力极差并处于网络边缘的物联设备受到攻击者们的关注,他们可控制这些设备成为僵尸机,并向边缘服务器发起DDoS攻击。DDoS攻击者通过这些僵尸机发送大量攻击流量,导致目标服务器资源
学位