基于“教师-学生”框架的零资源机器翻译

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:liongliong498
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度学习在自然语言处理的多个任务中得到了普遍的应用,机器翻译任务就是其中之一。神经机器翻译虽然已经基本代替了传统的统计机器翻译,取得了接近人类水平的性能,但作为一种数据驱动的方法,在资源稀缺的情况下,其性能表现十分有限。然而,对于实际中的很多语言对,高质量的平行语料是非常稀缺的,因此严重制约了模型的性能。本文旨在探索如何在零资源情况下,充分利用其它可获得资源来训练一个神经机器翻译模型。通过引入一种资源丰富的第三种语言作为中轴语言,提出了一种基于“教师-学生”框架的零资源机器翻译的实现方法。我们的方法只需要一个源语言到中轴语言以及一个中轴语言到目标语言的平行语料,而不需要源语言直接到目标语言的平行数据。首先,本文提出了一种零资源翻译方法,其基本思想是借助中轴语言和目标语言的平行数据,训练一个“教师”模型,然后借助源语言和中轴语言的平行数据,让中轴语言的编码器指导源语言的编码器“学生”模仿自己的训练过程,最后将源语言编码器和目标语言解码器进行拼接,得到最后的翻译模型。然后,为了使得“教师”模型更好的指导“学生”模型,本文采用了跨语言词向量的技术,将源语言和中轴语言提前映射到同一隐空间后,固定词向量训练模型。最后,出于解决平行语料不足问题的考虑,本文通过回译与双向联合训练的方式,构造伪平行语料,对翻译模型进行微调。本文提出的算法在四个翻译方向上的实验结果,验证了其有效性。
其他文献
为了能够顺利进军汽车电子市场,公司不断开发新技术、新产品,许多新的合作伙伴陆续被选择及加入到公司的供应商队伍中。供应商可以弥补企业生产能力的不足,降低企业的生产成本,提供特殊设备和专门技术,稳定或提高企业产成品的品质。半导体分立器件行业约有80%的成本是来自于原材料供应商,对供应商管控绩效的优劣将直接决定企业的成败。在整车供应链中,因供应商原因导致的异常,如影响到终端汽车大厂的生产计划,每日停线损
杂交黄颡鱼“黄优1号”是由经三代选育的普通黄颡鱼(♀)与二代选育的瓦氏黄颡鱼(♂)组合的杂交后代,具有生长速度快、体色似母本、抗逆性强等杂种优势,于2018年经全国水产原种和良种审定委员会审定为新品种(GS-02-001-2018)。本文主要针对杂交黄颡鱼“黄优1号”开展相关生物学及生长相关基因IGF-2研究,旨在积累杂交黄颡鱼“黄优1号”生物学背景知识,为该鱼的良种培育和优化养殖提供一定的理论依
随着现代制造业自动化加工技术的发展,数控机床被广泛应用于产品加工生产过程中,而刀具作为数控机床最易受损的部件之一,其磨损程度直接影响着产品质量。及时更换磨损刀具不但有利于提高产品质量和生产效率,也有利于提高刀具的利用率,降低生产成本。因此,建立一个可靠的刀具状态在线监测系统尤为重要。刀具状态监测系统主要包括信号采集、信息处理、在线监测三个部分。本文以数控铣床刀具作为研究对象,对刀具状态监测方法及系
随着信息技术的发展,立体图像在现代生活中的应用越来越广泛。在立体图像采集、存储、编码和传输过程中,会引入各种噪声导致图像的失真,从而严重影响人类的视觉体验,带来糟糕的主观感受。因此,立体图像质量评价技术的研究在人类应用生活体验中占据至关重要的位置,对于推动立体图像技术的普及与应用具有非常重要的现实意义。由于主观评价方法操作复杂,成本过高,因此如何建立一套符合人类视觉系统的客观质量评价模型是目前研究
本文以在广西钟山至昭平高速公路项目等广西区内高速公路工程项目为例,围绕高速公路工程全生命周期“勘察设计、施工建设、通车运营”的三个阶段,运用社会人类学结构访谈、参与式观察等研究方法,深入研究了高速公路工程与乡村社区发展之间关系。“线型互动”,是指围绕高速公路带状的“线型”主线建设,高速公路工程建设方面与乡村社区的自然资源流动、社会支持体系流动、乡村市场交换流动等方面互动交流的全过程。在勘察设计阶段
瓜环(Q[n])是一种大环合成化合物,具有负电性的羰基端口和中性的疏水空腔,瓜环不仅可通过疏水空腔包结客体分子,亦可通过端口羰基氧与金属离子发生配位作用。当瓜环与染料分子形成主客体复合物后,可改变染料分子的酸碱电离常数及光物理化学性质,当目标待测物加入瓜环-染料复合物中并通过竞争置换等方式与瓜环结合。若染料在包结和游离状态下的光物理化学性质不同,则目标待测物与瓜环结合后将伴随有荧光信号的变化,形成
随着无线通信技术的发展,越来越多的液体天线开始被设计并应用到通信设备中。我们将水参与设计的液体天线,称为液体水天线。在本论文中所设计的液体水天线大致可分为两大类,一种是以海水作为辐射体的海水天线,另一种是蒸馏水介质天线。本文分别对海水单极子天线、海水八木天线、海水角形反射器天线以及蒸馏水介质天线进行了研究,并结合金属天线的理论,提出了液体水天线的设计方案,重点研究了它们的增益、可重构性和带宽方面的
随着互联网的发展以及移动终端的极速普及,互联网逐步进入了Web2.0时代。与Web1.0时代时用户只是单向的信息获取者不同,Web2.0时代更加注重交互性,用户的身份也由此发生改变,更多的成为主动的内容生产者。在此背景下,用户生成内容(User Generated Content,UGC)概念逐渐兴起,UGC即用户将原创内容上传至互联网进行展示和分享,我们日常生活离不开的微博、社交网络、短视频平台
车辆自组织网络(Vehicular Ad Hoc Network,VANET)作为智能交通系统(Intelligent Transportation Systems,ITS)的重要组成部分,在车载领域具有巨大的应用潜力,比如提高道路安全、更新交通信息以及改善环境污染等。VANET中的V2I通信允许车辆在行驶中与基础设施之间建立通信链路,实现ITS与远程信息处理中心之间双向数据传输,以此提高道路交通
冷金属过渡(Cold metal transfer,CMT)技术是电弧填丝增材制造(Wire arc additive manufacturing,WAAM)技术的一种,其具有材料利用率高、沉积效率高、无飞溅、热输入量低等优点。与传统的制造方法相比,在改善成型件性能的同时,可实现高性能金属零件经济快速成形。铜铝合金复合材料具有良好的导电导热性、耐腐蚀性,高强度和高延展性等优点,可制成功能梯度材料来