零代词汉越神经机器翻译方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:yu782072350
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着中国与越南的交流越来越密切,汉语-越南语的翻译技术需求不断增长,汉语-越南语这种低资源场景下的翻译技术研究越来越好。然而现阶段研究的翻译技术,更多的是针对正式文体的使用场景,如新闻文本,官方文件等的翻译。对于非正式文体,如网络评论,口语日常对话等使用场景,在同样的翻译模型下,翻译性能明显不足。原因就是在这些场景下,经常出现不符合正常语法的表达方式——代词省略,造成句法成分缺失。这些对于人而言可能很容易理解,但在完整性和正确性方面给机器翻译带来了很多挑战。本文为提升在日常对话和口语等场景下的汉越神经机器翻译,促进汉越民间交流。针对零代词现象进行深入研究,提出了两种有效的处理方法。具体如下,本文主要完成了以下研究工作:(1)零代词汉越神经机器翻译语料库构建针对汉越平行数据少的问题,通过网络爬虫和字幕解析收集英-汉平行语料,英-越平行语料以及英-汉-越平行语料。根据汉语越南语语法中的省略代词特性,利用英语平行句完整的句法成分信息,来对汉语和越南语进行代词补齐和序列标记。获得补齐代词的语料,分别是3M规模的汉语单语语料、1M规模的越南语单语语料和30K规模的汉越平行语料。(2)基于零代词补齐的汉越神经机器翻译方法缺失代词会导致句子句法成分缺失,影响机器翻译性能。而代词预测困难,人工标注成本高。针对该问题,本文提出一种先将缺失代词补齐,再进行机器翻译的方法。具体的,将代词补齐任务分为代词位置预测和代词预测两个任务。代词位置预测采用Transformer+CRF模型来标注缺失位置。代词预测任务则采用Transformer+classifier的方法,同时在Transformer的编码端融入一个与代词相关的词法、句法、上下文的特征集合来约束序列表征,以提升代词预测准确率。非正式文体的汉语、越南语单语语料通过代词预测模型,补齐缺失代词信息,提升语料质量,再进入翻译模型,得到正式文体的译文。在300K规模的汉越数据上获得了0.51的BLEU值提升;在300K规模的越汉数据上取得了0.37的BLEU值提升。实验结果表明,补齐零代词可以有效提升汉越神经机器翻译的性能。(3)融合零代词信息的汉越神经机器翻译联合方法代词多分类预测准确率较低,代词补齐的错误可能会传播到后续翻译任务中影响翻译性能。并且,汉越都属于代词脱落语言,补齐代词再翻译可能会在译文生成额外的代词。针对以上问题,采用端到端的方式,将缺失代词预测转化为零代词分类识别,联合零代词分类任务和机器翻译任务,同时利用临近上下文信息来增强零代词信息表征,提出一种融合零代词信息的汉越神经机器翻译的联合模型。进一步提升了翻译模型的性能。与基准模型相比,在300K规模的汉越数据上获得了1.43的BLEU值提升;在300K规模的越汉数据上取得了1.38的BLEU值提升。实验结果验证了融合零代词信息的汉越神经机器翻译联合模型的有效性。(4)面向非正式文体的汉越神经机器翻译原型系统利用以上研究成果,通过一定规模的汉越字幕对话语料,训练一个适用非正式用语的汉越神经机器翻译模型。基于该机器翻译模型设计并实现一个简单的面向非正式文体的汉越神经机器翻译手机端原型系统。系统开发采用前后端分离的方法,前端基于i OS框架的app开发,后端采用python开发,包括用户登录管理模块、汉越机器翻译模块和数据收集模块共同组成。
其他文献
我国城市化进程不断加深,城市中人们以小区为单位集中居住,这就会衍生出一系列消防问题。根据消防与安全协会统计2020年居民住宅火灾就高达10.9万起,人民的生命财产安全受到严重威胁,所以国家在全国范围内举行了清理楼道等公共区域的活动,但是这些活动都只能保证楼道一时的清洁与安全。当活动结束后,之前的问题又会逐渐浮现出来,灾难并不会只挑你做好准备的时候到来,所以就需要楼道时刻保证不存在安全隐患才能够起到
学位
GIS具有可靠性高、结构紧凑、占地面积小等优点,所以大量使用在电力系统中。GIS中隔离开关开合闸时将产生VFTO,VFTO将对GIS本体及一次侧设备造成极大的绝缘故障,因此怎样抑制VFTO具有重要研究价值。现有加装阻尼电阻、改造成阻尼母线等方法,这些方法存在改造困难、故障率反而增大、可能产生更大谐振过电压危险等问题。经过研究对比发现,磁环抑制VFTO具有维护方便、可靠性高、经济技术性好等优点。但磁
学位
神经机器翻译模型在资源丰富的语种之间具有较好的翻译效果,但是在低资源语言之间翻译效果不佳。由于缺乏大规模的平行句对,模型在处理更大的词汇量方面有一定的局限性。通常神经机器翻译系统将源语言和目标语言中的常见单词作为词汇表,不在词汇表中的单词用UNK(Unknown Words)代替,这可能会忽略较大的文本粒度所携带的信息,如:命名实体,从而会影响翻译结果的质量。对此本文提出了融入双语实体的汉越神经机
学位
农业作为中国经济发展的根基,农业机械化在其现代化中占据关键位置,所以在此种形式下,人们关注的重点聚焦到农业机械上。本文着重于水果采摘机械的前期研究工作,致力于解决其中果实识别因光线不足导致识别精确率不高的问题。文中首先对实验平台进行搭建,文中移动式平台底盘为了安全准确的在果园中行走,需对果园的环境进行建图,对果树以及障碍物位置可进行感知并避开,同时对果树上的果实,在各种光线尤其是暗光条件下需保持一
学位
运用先进的机器视觉技术能在复杂制造过程中收集产品的实时数据,随后对收集的数据进行监控,能检测出复杂制造产品表面精度的质量问题。由于机器视觉技术在复杂制造过程中收集的产品数据主要以图像数据形式呈现,所以如何对图像数据进行统计过程监控成为一个重要研究课题。本文以图像数据为监控对象,对其发生失控点和变化点情况进行了研究。由于图像样本在检测过程中会存在样本量大小以及失控图像的偏移大小不同的情况,而不同检测
学位
钢铁产业对于国家经济发展有着重要的意义。转炉炼钢技术因为相对高效和低成本的优势,是目前世界范围内主要的钢铁冶炼技术之一,其冶炼的关键在于对转炉终点的准确控制。实际上,转炉中钢液的终点碳含量和温度与转炉终点控制有着密切的联系,也是判断钢液是否达到出钢标准的重要指标。因此,实现对转炉炼钢终点碳温精确实时预报可以有效降低转炉炼钢生产成本,提高生产效率,对于保护环境、节能减排也有着积极的意义。本文针对转炉
学位
Fe-Mn-Al-C低密度高强度钢具有优异的力学性能、良好的抗冲击性以及较低的密度等优点,将成为未来汽车用钢的主要材料,是目前实施汽车轻量化目标的主要研究方向之一。但由于添加了大量的Al(高达13%)和Mn(高达32%),使得它在冶炼、锻造、微观结构和塑性变形机理等方面,与普通用钢的研发与设计存在着较大的差异,采用传统的试错法实验大大减缓了其研发进度。目前机器学习技术已经广泛地应用于材料性能预测以
学位
卷烟是一种特殊的消费品,通常要求吸食口感长期保持稳定。复烤企业作为烟草生产链的关键环节,实现对烟叶的初步加工及模块化配方打叶,对不同质量的烟叶进行协调搭配,为卷烟企业提供稳定的原材料。但在实际生产中,烟叶质量受气候、土质等因素的影响,复烤配方的波动性较大,复烤企业只得盲目备料、或出现配方中某等级单料烟库存不足的情况,导致库存压力以及资源占用大。因此,合理备料、提高资源利用率是复烤企业亟待解决的问题
学位
神经机器翻译是一种依靠数据驱动的机器翻译方法,在双语平行语料充足的语种间表现优异,但在中文-越南语这类低资源机器翻译任务中,中文-越南语的双语平行语料不足,导致中文-越南语的机器翻译的性能并不理想,如何在有限的数据中挖掘出更多的语言信息来提升机器翻译模型性能是针对低资源机器翻译的热门研究方向。当下各研究机构针对单语大规模语料设计了预训练语言模型,从大规模的单语数据中预训练语言模型通过训练能够充分学
学位
越南语新闻事件检测及共指关系识别,旨在检测出越南语新闻文本中句子级的事件信息,并在此基础上分析事件之间是否从不同的角度描述同一件真实事情。该任务目前存在相关语料匮乏、深层语义难以表征以及数据噪声问题。因此,本文基于多头注意力机制以及生成对抗网络,对越南语新闻进行深层语义挖掘与数据降噪,提升了越南语新闻的事件检测及共指关系识别的性能。论文主要工作如下。(1)越南语新闻事件检测及共指关系识别语料构建。
学位