基于时空特征引导的多模态机器翻译方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:zyj16812
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多模态机器翻译是利用不同模态的信息辅助文字翻译的任务,视频引导机器翻译是一种多模态机器翻译任务,其目标是通过视频和文本的结合来产生高质量的文本翻译。随着信息技术的快速发展,视频引导机器翻已经逐渐成为人们进行跨语言交流的重要手段,也逐渐成为人工智能领域研究热点问题,在自然语言处理、多媒体和计算机视觉领域受到了很大的关注,因为它可以支撑更多的实际应用。虽然该模型已取得一定的研究成果,但仍然存在着一些待解决的问题,包括:1)对视频引导机器翻译的噪声处理问题不够深入;2)对视频引导机器翻译中由于细节缺失而导致翻译错误问题的解决方法不够深入;3)对视频引导机器翻译中的词语歧义问题处理不够深入。我们重点针对以上三个问题开展研究,主要工作和成果包括:1)视频中含有丰富的信息,但并不是每一帧信息都有助于视频引导机器翻译任务,在视频中有一些无用帧会对视频引导机器翻译任务带来噪声的干扰。针对这一问题,我们引入一个交叉注意力机制,它将通过文字与视频帧进行交叉注意力机制,将视频中的每一帧赋予不同的权重,通过计算不同帧的影响力,选出一簇与文字关联的关键帧再通过时间注意力机制后得到的视频帧作为最终的视频特征,最后通过LSTM解码出目标语言。为了解决这一问题,我们提出了一种基于交叉注意力的视频引导机器翻译模型。该模型根据视频与文字模态具有相对重要性,利用文字选择相对有帮助的帧去辅助机器翻译,消除相对不重要的视频帧对视频引导机器翻译带来的噪声干扰,并结合视频中时序特征,将源语言和目标语言进行一个空间上对齐的效果。在Vatex公共数据集实验,获得了30.35个BLEU值,相比于视频引导机器翻译基线方法提高了1.23个BLEU值。在基于作者实验室汉-越低资源视频引导机器翻译数据集上,获得了17.72个BLEU值,与基线方法相比,提高了0.4个BLEU值。2)在之前的工作中,只基于视频中的时间结构选择相关片段引导机器翻译,所选片段中仍然存在大量与目标语言无关的信息。因此,在翻译过程中,视频中的时空结构依然没有得到充分利用,从而无法有效缓解机器翻译中细节缺失或翻译错误的问题。为了解决这一问题,我们提出了一种基于时空注意力(spatial-temporal attention,STA)的模型来充分利用视频中的时空信息引导机器翻译。我们提出注意力模型不但能选择与目标语言最相关的时空片段,而且能进一步聚焦片段中最相关的实体信息。所关注的实体信息能有效增强源语言和目标语言的语义对齐,从而使得源语言中的细节信息得到准确翻译。我们的方法基于Vatex公共数据集和构建的汉-越低资源数据集上进行实验,在Vatex与汉-越低资源数据集上BLEU4分别达到32.66和18.46,相比于时间注意力基线方法的改进了3.54与0.89个BLEU值。3)在视频引导机器翻译任务中,使用视频中的局部特征结构十分依赖于视频预处理时候局部特征与名词的对应关系,使得部分名词短语在翻译过程中仍然存在的短语歧义问题无法解决。因此,为了解决上述问题,我们提出一种基于变分自编码的视频引导机器翻译模型。该模型在已有视频局部特征的基础上,将源语言中出现的短语与视频局部特征作为输入,通过变分自编码生成一个与原始短语相似的隐向量特征,然后通过生成的隐向量特征与源句子特征作为输入,以信息增强的方式解决翻译过程中,名词短语翻译歧义的问题。我们在Vatex公共数据集与汉越低资源数据集上进行实验,在Vatex数据集上获得了33.2分的BLEU值,相比于基线数据提高了4.08个BLEU值,在汉越低资源数据集上得到18.78个BLEU值,并获得了1.46个BLEU值提高。
其他文献
GIS具有可靠性高、结构紧凑、占地面积小等优点,所以大量使用在电力系统中。GIS中隔离开关开合闸时将产生VFTO,VFTO将对GIS本体及一次侧设备造成极大的绝缘故障,因此怎样抑制VFTO具有重要研究价值。现有加装阻尼电阻、改造成阻尼母线等方法,这些方法存在改造困难、故障率反而增大、可能产生更大谐振过电压危险等问题。经过研究对比发现,磁环抑制VFTO具有维护方便、可靠性高、经济技术性好等优点。但磁
学位
神经机器翻译模型在资源丰富的语种之间具有较好的翻译效果,但是在低资源语言之间翻译效果不佳。由于缺乏大规模的平行句对,模型在处理更大的词汇量方面有一定的局限性。通常神经机器翻译系统将源语言和目标语言中的常见单词作为词汇表,不在词汇表中的单词用UNK(Unknown Words)代替,这可能会忽略较大的文本粒度所携带的信息,如:命名实体,从而会影响翻译结果的质量。对此本文提出了融入双语实体的汉越神经机
学位
农业作为中国经济发展的根基,农业机械化在其现代化中占据关键位置,所以在此种形式下,人们关注的重点聚焦到农业机械上。本文着重于水果采摘机械的前期研究工作,致力于解决其中果实识别因光线不足导致识别精确率不高的问题。文中首先对实验平台进行搭建,文中移动式平台底盘为了安全准确的在果园中行走,需对果园的环境进行建图,对果树以及障碍物位置可进行感知并避开,同时对果树上的果实,在各种光线尤其是暗光条件下需保持一
学位
运用先进的机器视觉技术能在复杂制造过程中收集产品的实时数据,随后对收集的数据进行监控,能检测出复杂制造产品表面精度的质量问题。由于机器视觉技术在复杂制造过程中收集的产品数据主要以图像数据形式呈现,所以如何对图像数据进行统计过程监控成为一个重要研究课题。本文以图像数据为监控对象,对其发生失控点和变化点情况进行了研究。由于图像样本在检测过程中会存在样本量大小以及失控图像的偏移大小不同的情况,而不同检测
学位
钢铁产业对于国家经济发展有着重要的意义。转炉炼钢技术因为相对高效和低成本的优势,是目前世界范围内主要的钢铁冶炼技术之一,其冶炼的关键在于对转炉终点的准确控制。实际上,转炉中钢液的终点碳含量和温度与转炉终点控制有着密切的联系,也是判断钢液是否达到出钢标准的重要指标。因此,实现对转炉炼钢终点碳温精确实时预报可以有效降低转炉炼钢生产成本,提高生产效率,对于保护环境、节能减排也有着积极的意义。本文针对转炉
学位
Fe-Mn-Al-C低密度高强度钢具有优异的力学性能、良好的抗冲击性以及较低的密度等优点,将成为未来汽车用钢的主要材料,是目前实施汽车轻量化目标的主要研究方向之一。但由于添加了大量的Al(高达13%)和Mn(高达32%),使得它在冶炼、锻造、微观结构和塑性变形机理等方面,与普通用钢的研发与设计存在着较大的差异,采用传统的试错法实验大大减缓了其研发进度。目前机器学习技术已经广泛地应用于材料性能预测以
学位
卷烟是一种特殊的消费品,通常要求吸食口感长期保持稳定。复烤企业作为烟草生产链的关键环节,实现对烟叶的初步加工及模块化配方打叶,对不同质量的烟叶进行协调搭配,为卷烟企业提供稳定的原材料。但在实际生产中,烟叶质量受气候、土质等因素的影响,复烤配方的波动性较大,复烤企业只得盲目备料、或出现配方中某等级单料烟库存不足的情况,导致库存压力以及资源占用大。因此,合理备料、提高资源利用率是复烤企业亟待解决的问题
学位
神经机器翻译是一种依靠数据驱动的机器翻译方法,在双语平行语料充足的语种间表现优异,但在中文-越南语这类低资源机器翻译任务中,中文-越南语的双语平行语料不足,导致中文-越南语的机器翻译的性能并不理想,如何在有限的数据中挖掘出更多的语言信息来提升机器翻译模型性能是针对低资源机器翻译的热门研究方向。当下各研究机构针对单语大规模语料设计了预训练语言模型,从大规模的单语数据中预训练语言模型通过训练能够充分学
学位
越南语新闻事件检测及共指关系识别,旨在检测出越南语新闻文本中句子级的事件信息,并在此基础上分析事件之间是否从不同的角度描述同一件真实事情。该任务目前存在相关语料匮乏、深层语义难以表征以及数据噪声问题。因此,本文基于多头注意力机制以及生成对抗网络,对越南语新闻进行深层语义挖掘与数据降噪,提升了越南语新闻的事件检测及共指关系识别的性能。论文主要工作如下。(1)越南语新闻事件检测及共指关系识别语料构建。
学位
随着中国与越南的交流越来越密切,汉语-越南语的翻译技术需求不断增长,汉语-越南语这种低资源场景下的翻译技术研究越来越好。然而现阶段研究的翻译技术,更多的是针对正式文体的使用场景,如新闻文本,官方文件等的翻译。对于非正式文体,如网络评论,口语日常对话等使用场景,在同样的翻译模型下,翻译性能明显不足。原因就是在这些场景下,经常出现不符合正常语法的表达方式——代词省略,造成句法成分缺失。这些对于人而言可
学位