基于深度学习的机器翻译建模方法研究

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:tsy99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年自然语言处理技术取得了长足的发展,机器翻译技术也一直受到了研究者们广泛的关注。神经机器翻译技术其翻译模型简单,可操作性强,不需要大量专家知识,成为了主流翻译模型。但其仍面临许多问题。一方面,由于依赖于神经网络在大规模语料库上训练,所以模型训练的周期都特别长;另一方面,模型在翻译效果上仍不如人意,会出现漏译,误译等情况。神经机器翻译的两个主要问题是训练周期长以及翻译效果仍不理想。针对这两个问题,在模型的编码阶段和解码阶段分别进行了改进,分别提出了基于衰减权重损失函数的模型以及基于组嵌入的自然语言处理模型:(1)提出一种基于衰减权重的损失函数模型帮助在解码阶段进行训练。传统神经机器翻译的解码过程中,通常是利用之前翻译的词作为解码器的一部分输入进行下一个词的翻译,所以序列开头的词对翻译有更大的影响。基于衰减权重的损失函数会赋予越早出现的词更大的权重进行训练,从而让模型尽可能地翻译对先出现的词。在国际口语机器翻译评测比赛(IWSLT)翻译数据集上的德英机器翻译实验表明,使用了衰减权重损失函数的模型相比于传统恒定权重损失函数,翻译的bleu score上面最多提升了 1.63%。(2)提出一种基于组嵌入的编码器模型。传统自然语言模型的输入为每个词的词向量,这些输入只能携带训练语料之内的信息。组嵌入模型可以将训练语料之外的语言学信息额外作为编码器的一部分输入,从而更好地指导模型进行学习。英德机器翻译的实验结果表明,使用了组嵌入的模型与只使用词向量进行编码的模型相比,达到最优的训练收敛时间缩短了 35.29%。组嵌入的思想能在任何只要输入是词向量的模型中进行应用。在情感分析和命名实体识别等其他任务上的实验结果显示,组嵌入模型也都能有效地提升收敛速率或识别精度,表明组嵌入的方法对自然语言处理任务具有普适性。
其他文献
目的 分析两种细菌鉴定法在临床血液检验中的应用.方法 本次研究将本院2018年1月~2019年1月接收发烧并全身感染患者100例的血液样本作为对象,每位患者分别抽取两份血液样本,并
随着科技的发展与进步,在安全性及可靠性至关重要的领域(如航空电子、汽车、铁路、工业自动化等领域),越来越多的机械及电气组件被软件控制系统(也称嵌入式系统)所替代。传统
21世纪是信息时代,也是网络时代。随着移动通信技术的飞速发展和手机普及率的迅速提高,手机短信越来越受到众多人士的青睐。短信业务正以其短小、迅速、简便、价格低廉等诸多
由陕西省煤炭科学研究所完成的斜井前卸式大、中型施工箕斗系列化设计研究课题,在系统地分析了同类设备的基础上,根据国内斜井掘进快速施工技术水平、施工速度的现状及发展提高
我国工业信息化的发展加速了企业生产的信息化建设,现代企业生产管理中各种信息系统的构建推进了企业在新型工业化道路上的建设。报表作为企业数据的组织和输出方式在企业信息
阐述了郑煤集团所属的米村矿、裴沟矿、超化矿、大平矿四对矿井的企业现状、地面系统改造、产品优化的实施及效益。 The present status quo of the four pairs of mines, s
XML作为W3C数据描述和交换的标准格式语言,已经得到广泛的应用。不论是Semantic Web还是Web Services都采用XML作为其数据表示和数据交换的标准格式。XML已经发展成为信息应
近年来,基于传感器的行为识别和特定行为检测取得了极大的发展。而其中基于可穿戴式传感器的行为识别研究占据了主要地位,并给各种上层应用提供了大量的支撑,譬如在家庭健康
煤矿井下供电系统为中性点对地绝缘系统,当发生单相接地故障时,所造成的泄漏电流和流失功率是不可忽视的。为了确保供电安全,煤矿井下供电宜采用中性点经消弧线圈的接地系统。
随着计算机技术与网络技术在电力市场运营系统中的广泛应用,推动了电力市场运营系统的发展。同时,也给系统中的数据和通信带来了安全威胁,使得电力市场运营系统中数据和通信安全问题的研究提上了日程。本文概述了电力市场运营系统目前面临的安全威胁,提出基于身份证书AIK的电力市场安全认证方法,验证系统用户身份的合法性;在数据传输安全上,采用适用于电力市场运营系统的数据传输方法,解决了局域网和广域网中的数据传输安