融合单语语料的汉缅神经机器翻译方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:show800811
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
神经机器翻译已经在多种语言对上取得了很好的效果,翻译性能依赖平行语料的规模大小,而缅甸语是稀缺性语言的一种,当前互联网没有公开的汉缅平行数据集,汉缅平行语料极其匮乏。同时,单语语料是一种重要的语言资源,相比平行语料,具有数量大、获取方便的优势。单语语料可以训练出优质的语言模型,对提高机器翻译流利度和忠实度起着重要作用。因此,针对汉缅单语语料在汉缅神经机器翻译当中的应用,本文完成了以下的工作:(1)汉缅双语词汇抽取。缅甸语是资源稀缺性语言的一种,汉缅双语词汇是实现汉语和缅甸语之间机器翻译任务的重要双语资源。针对汉缅双语词汇稀缺的问题,本文提出了一种融合主题及上下文特征的汉缅双语词汇抽取方法。具体而言,首先利用LDA主题模型获取汉缅文档主题分布,并通过双语词向量表征将跨语言主题向量映射到共享的语义空间后抽取同一主题下相似度较高的词作为汉-缅双语候选词汇,然后基于BERT获取候选双语词汇相关上下文的词汇语义表征构建上下文向量,最后通过计算候选词的上下文向量的相似度对候选双语词汇进行加权得到质量更高的汉缅互译词汇。实验结果表明,相对于基于双语词典的方法和基于双语LDA+CBW的方法,本文提出的方法准确率上分别提升了11.07%和3.82%。(2)基于神经主题模型的单语回译语料选取方法。平行语料是构建汉缅神经机器翻译系统的基础资源。针对汉缅平行语料稀缺的问题,回译是一种解决低资源语言翻译的有效方法,将目标端的单语语料回译成源语言,构成伪平行句对。但是不足之处是如果选取质量不佳且来源混杂的缅甸语单语数据,反而会影响机器翻译的效果。为此,本文提出了一种基于神经主题模型的单语回译语料选取方法,首先利用收集到的汉缅平行句对中的缅语数据构建一个神经主题模型,然后通过神经主题模型选取与我们训练集相关的缅甸语单语语料,继而提升汉缅神经机器翻译的单语回译语料质量。(3)基于迭代回译的汉缅神经机器翻译方法。汉缅神经机器翻译需要大量汉缅平行语料,但是缅甸语是一种资源稀缺性语言。针对汉缅平行语料及其稀缺,互联网存在大量的汉缅单语语料的问题,本文提出了一种基于迭代回译的汉缅神经机器翻译方法。首先利用回译的方法将目标端大量丰富的单语语料生成源端句子,再通过对偶学习扩充训练数据,有效解决了汉缅平行句对稀缺导致翻译模型泛化能力不足的问题。实验效果表明我们的方法在一定程度上能提升汉缅神经机器翻译效果。(4)汉缅神经机器翻译原型系统的实现。基于上述相关理论研究,构建了本文的汉缅神经机器翻译系统。利用Pytorch框架研发了融合单语语料的汉缅神经机器翻译原型系统,实现了翻译的可视化展示。整个系统的模块主要包括句子的输入/输出模块、双语词嵌入模块和汉缅神经机器翻译模块等。
其他文献
近年来,随着国家工业化水平的日益提高,对综合性能优异的钢材需求越来越广。Ti微合金钢由于具有的优良性能,并且钛矿在我国产量丰富价格低廉,一直是微合金钢领域较为热门的微合金钢种。但Ti微合金钢中Ti元素较为活泼,易与杂质元素形成夹杂物,同时Ti C的析出具有较高的温度敏感性,可能导致钢板性能出现波动。本文针对Ti微合金化钢在轧制过程中奥氏体组织晶粒粗大和夹杂物多等问题,添加Zr和Mo元素,研究Zr和
软测量技术是实现难测参数在线实时估计的一种有效手段,在冶金、造纸、制药、石油、化工等生产过程的监测、控制及优化中扮演着日益重要的角色。由于实际工业过程往往呈现出非线性、时变性、多模式、多时段等过程特性,使用传统的全局建模方法难以得到令人满意的结果。因此,即时学习作为一种典型的局部学习建模方法在软测量建模领域日益受到青睐。本文从即时学习软测量建模技术出发,研究高性能的集成即时学习软测量建模方法。论文
双语新闻差异性摘要分析是自然语言处理领域中的重要研究方向之一。随着一带一路的发展,我国与其他国家的交流变得日益密切,我们需要更加精确地了解其他国家在某一话题下与我国的不同看法。国内外各新闻媒体都会发布大量的新闻报道,可以帮助我们很好的了解不同国家对待某一话题差异性。本文的研究目标就是通过双语新闻报道,根据设计的差异性摘要抽取方法,获得两种语言在同一个话题下新闻报道的差异性。针对以往多文档摘要的研究
近年来,随着计算机视觉技术的快速发展,结合不同研究领域的应用需求,开发、设计不同类型的图像的自动识别系统已成为该技术的一个重要发展方向。其中,结合不同种类昆虫的形态特点,利用昆虫图像进行自动识别,方向新颖,且具有很大的研究使用价值。蝴蝶是昆虫界的重要分支,种类繁多,分布广泛,因此对其进行分类非常困难。研究蝴蝶种类的自动识别方法,不仅可以保护环境,也可应用于边境检疫,也对物种的鉴定研究有非常重要的意
随着互联网技术的飞速发展,文本信息资源不但呈爆炸性增长,同时还蕴藏了大量可利用资源。因此通过机器学习、模式识别、深度学习的相关方法对文本数据进行多维度、多样性以及统计模型的建立,实现对文本数据的分类显得愈发重要。文本的特征提取是文本分类中最需要解决的核心问题,对此本文提出了一种基于图卷积神经网络的主题模型文本分类模型。该分类模型将两种分类算法融合,其中第一种算法主要为解决基于概率的主题模型特征提取
随着互联网技术的蓬勃发展,使得在线服务在Web服务、电子商务、搜索引擎等众多领域得到广泛应用。相应地,互联网上也出现了众多功能相同或相似的在线服务,用户从中选择出满足自身需求的服务,需要花费大量的时间与精力。因此,用户通常需要借助以第三方观点为基础的在线服务评价方法,对候选服务有效地进行排序,从而辅助其进行服务选择。然而由于不同的用户具有不同的评价准则,从而使得不同的用户对于同一服务的数值型评分或
红曲菌的发酵产物包括红曲色素、Monacolin K、异黄酮、γ-氨基丁酸、二聚酸、桔霉素等化合物。红曲色素作为一种天然色素,来源天然、安全性高、性质稳定、应用范围广泛,按色调分为红色素、橙色素、黄色素三种,其中红曲红色素的生产工艺已十分成熟,消费市场巨大;而红曲橙色素和黄色素的感官性能极佳,但是产量并未满足市场需求,因此具有较大的经济发展潜力。桔霉素与红曲色素拥有共同生成的途径,具有强烈的肾毒性
医院作为城市结构中不可或缺的一个部分,是提供医疗服务的专业机构,收容和治疗病人的服务场所,医院发展建设是推进健康中国建设的基础条件之一。县级综合医院是我国数量最多的医院,在医院建设方面也较为落后,积极改进县级综合医院的建筑空间环境是国家发展的必要需求。随着2020年新型冠状肺炎疫情的爆发,在医院建设中更加强调综合医院尤其是县级综合医院在设计方面的、基础设施配置、功能流线布局、“人本位”思想及应对突
传统金属材料往往具有强度高塑性差或者塑性高强度差的特点,他们通常是以牺牲某一方面为代价的,这一“倒置(trade-off)”关系严重的限制了材料的应用。而晶粒尺寸梯度结构材料能够极大地改善传统金属材料中存在的这一“倒置”关系。本研究通过表面机械研磨处理(Surface Mechanical Attrition Treatment,SMAT)技术在低温(液氮环境中)下对具有不同层错能(stackin
学位