不依靠平行语料的神经机器翻译系统的初始化研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:lygwzs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文的主要研究内容是不依靠平行语料的神经机器翻译系统的初始化研究,在不使用平行数据进行训练的方法中主要有无监督训练方法,它使用降噪自编码和反向翻译方法在单语语料上进行训练,而相关研究表明模型的初始参数往往对这类训练方法的最终效果有很大影响,错误的初始化可能会导致训练时产生太多噪声,从而会影响其最终性能。针对此问题,本文分别从真实词典监督,伪词典监督和元学习三个角度提出不同方法来提高初始化模型质量,并在此模型基础上使用无监督方法训练机器翻译模型,提升机器翻译的效果。(1)从真实词典监督的角度,提出基于真实词典监督的模型初始化方法。通过引入一个真实词典对源端单语数据进行替换,在两种语言之间建立联系,以监督模型的预训练过程,同时得到源端到目标端和目标端到源端的两个方向的预训练模型,之后使用词嵌入融合初始化和双编码器融合训练两种方法对两个方向的预训练模型进行融合,初始化模型后使用无监督方法进行训练。实验结果表明,本文利用真实词典监督训练得到的初始化参数可以有效提高翻译模型训练的效果。(2)从伪词典监督的角度,提出基于伪词典监督的模型初始化方法。实验证明通过词典引导预训练可以得到一个较好的初始化模型,提高翻译质量,但是在一些情况下平行词典也是较难获得的,为了解决这个问题,本文利用单语数据先提取伪词典,再利用抽取的伪词典进行模型的初始化和训练过程。为了实现这个目标,本文提出了一个两步训练方法,第一步使用单语数据训练一个无监督模型,利用其训练的词嵌入向量抽取伪平行的词典。第二步利用抽取的词典对训练数据进行替换,之后利用替换数据训练无监督翻译模型。实验结果表明,本文提出的词典抽取方法有效提高了原本翻译模型的效果。(3)从元学习的角度,提出基于元学习的模型初始化方法。元学习方法可以利用对不同任务的学习从而得到一个较好的初始化参数,而一个较好的初始化参数对于模型的最终训练效果有重要作用。本文利用多个语言的单语数据,通过使用元学习方法得到一个较好的初始化模型,在此模型基础上继续训练预训练模型,之后利用预训练模型初始化无监督训练模型,然后使用抽取词典的方法得到伪词典,对训练数据进行替换,最后利用双编码器方法进行训练。通过实验表明,本文提出的元学习初始化方法相比于传统的用随机初始化参数训练预训练模型的方法,最后训练的翻译模型效果有明显提升。
其他文献
命名实体识别作为自然语言处理领域的基础任务之一,影响着诸多的下游任务。命名实体识别旨在识别出给定文本中具有特殊含义的实体,比如人名、地名或者特定应用中预定义类别的短语。目前中文命名实体识别致力于获得更加情境化的向量表示,在特定场景下大都依赖额外的领域知识,无法同时适应规范和非规范文本,因此无法对两类文本进行统一处理。为了解决这一问题,本文从中文规范和非规范文本的结构特征出发,对命名实体识别展开一系
学位
嵌入式开发是行业内公认的难度高、门槛高,开发者不仅需要学习大量的软硬件知识,还要应对繁琐复杂的开发环境。为了解决学习嵌入式开发所面临的困境,将图形化编程引入嵌入式开发中以降低技术门槛。然而,传统的图形化编程大多采用C/C++作为应用的开发语言,无法满足嵌入式人工智能的开发需求。因此,本文设计并实现了一种基于编译型E-Python的图形化编程系统,主要研究内容如下。(1)针对图形化嵌入式编程对于硬件
学位
随着网络和数字技术的高速发展,隐蔽通信和数字版权保护等方面的迫切需求使古老的隐写术在网络时代焕发出全新生机。图像隐写是一门将秘密信息隐藏到图像中的技术,由于其简单易用、难检测、难提取,很容易被非法组织利用,从事危害国家安全的活动。本文主要研究的就是针对隐写术的检测问题,也称为图像隐写取证问题。近年来,学术界提出了多种基于深度学习的隐写分析方法,利用卷积神经网络自动提取隐写分析特征,取得了较好的检测
学位
随着P2P技术的发展,点对点分布式系统正逐渐取代传统分布式系统。由于其去中心化的特点,消息不再是通过中心服务器分发,因此设计一个去中心化消息分发算法存在很大的挑战。在传统中心化的“客户端/服务器”架构中,只需通过中心服务器就可以轻松将消息分发下去,而对于去中心化系统,需要有特定的消息分发协议。在消息分发过程中需要考虑分发速率、带宽占用、可靠性、安全性、负载均衡等重要性能指标,在不同的分布式系统中,
学位
随着经济的快速发展,社会出现了越来越多的闲置资源,互联网技术的发展为闲置资源的再利用提供了技术条件。共享经济这种新兴的经济模式逐步发展起来,对人们生活的各个方面产生越来越大的影响。目前,共享经济的运营模式主要是具有中心化特征的中心型共享经济,其面临数据孤岛、数据安全等问题。具备去中心化、非对称加密等特点的区块链技术有机会拓宽共享经济的发展方向,智能合约的利用也将为共享经济的发展带来变革,势必会创造
学位
随着短视频平台的快速发展,直播带货行业变得越来越火热。设计并研发细粒度多模态商品识别系统,可以极大地提升用户体验,具有实际落地意义。作为该系统的核心,多模态命名实体识别能够在众多多模态场景中挖掘有效信息,具有重要的研究价值。目前,多模态命名实体识别方向的研究者们主要关注文本和图像的特征提取以及多模态信息交互、融合,忽视了图像的深层信息以及不相关图像带来的噪声影响。因此,本文针对现有方法的不足,提出
学位
随着互联网技术的快速发展,跨境电子商务已经成为开展国际贸易的重要渠道,由此引发的对于商品信息的机器翻译需求不断增长。由于商品信息句子中的术语携带着重要的信息,对于商品信息的全面传达至关重要,目前学术界和工业界主流的做法是基于电商双语术语词典来搭建电商领域的定制化机器翻译系统。然而,电商领域双语术语的构建完全依赖于人工翻译,存在成本高、效率低的问题。针对此问题,本文分别从抽取式和生成式两个方向提出电
学位
在“万众创新”的时代背景下,高新技术企业已成为国民经济增长新引擎。但在快速发展的同时,部分高新技术企业因短视的经营行为而陷入经营危机,因此我们应更多的关注企业长远的发展。创新是企业漫长生命周期中维持竞争力不可或缺的手段,管理者在创新活动中扮演着重要角色,是企业创新研发与投资方案的制定与决策者,企业可以设计合理的激励体系激发高管创新的主动性和积极性,高管薪酬粘性便是这样的一种薪酬制度安排,它会包容高
学位
城市地下管网是保障城市正常运行的重要基础设施和“生命线”,负责提供能量与信息流,但随着城市化进程的不断加快,使得城市地下管网的维护难度日益增加,维护工作不及时导致地下管网事故频发。近年来,物联网技术发展逐渐成熟,运用物联网技术推动智慧城市建设是新的发展方向。本文基于管网监测系统的研究现状,设计并实现了具备稳定性、低功耗和可维护性的管网数据监测系统。主要研究内容如下。(1)搭建管网监测系统的软硬件平
学位
对于自然语言处理领域中的机器翻译等跨语言任务,平行结构是训练神经网络来学习不同语言之间的映射关系的重要资源。除了现有的平行资源外,近年来很多研究者们都在尝试从单语语料中挖掘平行数据。目前,大多数研究集中于从单语语料中挖掘平行词对和平行句对,而由于平行短语对边界确定困难、单词形态复杂,所以从单语语料中挖掘平行短语对的研究非常稀少。因此,本文尝试利用多种方法,从单语语料中挖掘高质量的平行短语对,并探索
学位