基于跨语种预训练语言模型XLM-R的神经机器翻译方法

来源 :北京大学学报(自然科学版) | 被引量 : 0次 | 上传用户:fuqiang1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
探索将XLM-R跨语种预训练语言模型应用在神经机器翻译的源语言端、目标语言端和两端,提高机器翻译的质量.提出3种网络模型,分别在Transformer神经网络模型的编码器、解码器以及两端同时引入预训练的XLM-R多语种词语表示.在WMT英语-德语、IWSLT英语-葡萄牙语以及英语-越南语等翻译中的实验结果表明,对双语平行语料资源丰富的翻译任务,引入XLM-R可以很好地对源语言句子进行编码,从而提高翻译质量;对双语平行语料资源匮乏的翻译任务,引入XLM-R不仅可以很好地对源语言句子进行编码,还可以对源语言端和目标语言端的知识同时进行补充,提高翻译质量.
其他文献
新疆维吾尔自治区喀什地区作为我国与中亚和欧洲的重要陆路货运口岸,来往货物运输频繁,引入新型冠状病毒(SARS-CoV-2)风险大,对我国新型冠状病毒肺炎(COVID-19)疫情防控造成压力.2020年11月我国新疆维吾尔自治区喀什地区发生输入SARS-CoV-2导致的本土聚集性COVID-19疫情.为明确货物运输载体携带SARS-CoV-2的基因特征以及边境快速物流系统作为SARS-CoV-2传播载体的可能性,本研究对2020年11月6日-2020年11月10日期间在喀什边境口岸货运卡车及运输的集装箱采集
诺如病毒(Noroviruses,NoVs)是引起全球急性胃肠炎的常见病原.组织血型抗原(Histo-blood groups antigens,HBGAs)是NoVs黏附因子(受体),能促进病毒感染宿主细胞.NoVs主要衣壳蛋白突出(Protruding,P)区是与HBGAs结合的关键结构域.本研究构建了非流行毒株GII.26型NoVsP区的原核表达重组质粒,以谷胱甘肽巯基转移酶(Glutathione s-transferase,GST)亲和层析纯化P蛋白,人鼻病毒的3C蛋白酶去掉GST标签,通过酶联
人肠道病毒A组71型(Enterovirus A71,EV-A71)和柯萨奇病毒A组16型(Coxsackievirus A16,CV-A16)是引起手足口病(Hand,foot,and mouth disease,HFMD)的主要病原体.近年来非EV-A71和非CV-A16的其他肠道病毒(Enterovirus,EV)已成为HFMD流行或暴发疫情的优势病原体.安徽省HFMD监测数据显示,2017-2018年HFMD样本非EV-A71和非CV-A16其他EV核酸阳性率超过50%,其中大部分为柯萨奇病毒A组
介绍了“多测合一”政策的出台背景,汇总了国家和省级层面“多测合一”的政策文件和主要内容,总结了政策出台以来全国范围的主要学术活动,归纳了省级层面“多测合一”的技术标准及其特点,罗列了国内主要的多测合一商品化软件,展示了国内各地典型多测合一管理信息系统,报告了取得的主要学术成果.对已开展的“多测合一”工作进行了评价,提出了改进“多测合一”工作的6条建议.
人源诺如病毒(Human noroviruses,HuNoVs)是全球引起急性胃肠炎的重要传染病原.该病毒遗传多样性丰富,包括了5个基因群以及39种基因型,免疫学检测受限.因此,本研究旨在制备广谱性的HuNoV单克隆抗体,并建立可检测多种基因型的双抗体夹心ELISA方法.本研究通过表达纯化流行毒株GII.4型HuNoVs衣壳蛋白P颗粒免疫Balb/c小鼠,筛选出3株能稳定分泌单克隆抗体的杂交瘤细胞株,制备单克隆抗体并进行评价.利用辣根过氧化物酶对抗体进行标记及配对筛选,建立了HuNoVs双抗夹心ELISA
水痘-带状疱疹病毒(Varicella-zoster virus,VZV)是引起水痘和带状疱疹这两种临床表现不同病症的共同致病原,其基因组中ORF43是VZV在宿主细胞中复制的必需基因,但目前尚无针对VZV ORF43编码蛋白性质与功能的研究报道.本研究目的 是制备抗VZV ORF43单克隆抗体,以初步研究该蛋白在细胞内的表达与分布情况.本研究构建了VZV ORF43蛋白的原核表达质粒并在大肠杆菌中进行了该蛋白的表达,纯化蛋白免疫小鼠后,使用杂交瘤技术及克隆化筛选,获得一株特异性强、反应性好的抗VZV O
为了对知识库(KBs)进行补全,提出一种新的基于路径的推理方法,使用注意力机制,将实体与其类型相结合,共同对路径中的实体进行表示,并使用注意力机制对每条路径预测的关系向量与给定关系的表示向量之差的绝对值进行汇总来计算模型的置信度.在基准数据集WN18RR和FB15k-237上的实验结果表明,与现有的基于路径的关系推理方法相比,所提方法具有更好的性能.
为建立小鼠轮状病毒(Rotavirus,RV)感染动物模型,研究可同时表达轮状病毒NSP4 (Nonstructural protein 4)和VP7(Viral protein 7)的重组腺病毒疫苗免疫孕鼠后对新生乳鼠感染RV的被动保护作用.新生乳鼠口服异源株轮状病毒Wa、ZTR-68或SA11株后(分2次给予,每次含5×104 CCID50的RV),观察乳鼠是否有腹泻症状、肠道病理变化,检测乳鼠粪便排毒百分率;另以重组腺病毒rAd-NSP4-VP7免疫孕鼠后,检测母鼠血清抗体产生情况,并对比乳鼠粪便中
针对当前自动问答数据增强方法需要大量外部数据的问题,提出一个面向问答模型缺陷的数据增强方法.首先,在训练集上训练好问答模型、问题生成模型以及问答匹配模型;然后,获取问答模型在训练集上预测的所有答案,并选取其中预测错误的答案;再后,使用问题生成模型对这些答案生成相应问题;最后,通过问答匹配模型对生成的问答对进行过滤,保留其中质量较高的数据作为最终的增强数据.该方法不需要额外的数据与领域知识,同时能够针对模型构造特定数据,耗费较少的训练代价就能使模型性能提升.实验结果表明,所提出的数据增强方法对R-Net,B
在前期基于图网络的模型基础上,引入角色指代信息,提出融合角色指代的多方对话关系抽取模型.在构建图节点时加入角色节点,将其与对应角色指代的词节点进行连接,并使用图注意力网络进行编码.在DialogRE数据集上的实验效果与基线模型相比,F1值在验证集上提升2.9%,在测试集上提升4.6%.