基于组块的汉法神经机器翻译系统研究与实现

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:lhyhh123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科学技术的高速发展和互联网的普及使人际信息交流和文化交互日益频繁,全球化背景下,人们对于消除不同语言间的沟通障碍需求迫切。神经机器翻译(Neural Machine Translation,NMT)作为当前性能最优的自动化翻译技术,已成为目前主流方法,其研究与发展具有深远意义与广泛应用前景。本文从NMT的编码器端入手,结合汉法两种语言在组块上的特点,提出了将源语言组块信息引入NMT的方法,并设计实现了汉法神经机器翻译原型系统。主要工作和创新点如下:1)深入分析了现有基于组块的机器翻译方法,研究了基于短语的统计机器翻译模型和基于组块的神经机器翻译解码器,推演了各自的建模过程、参数推导以及模型训练算法。2)针对汉语言特点,将组块知识引入神经机器翻译的编码器端。在编码器端单词层之上增加了一个额外的组块层,分别提出了基于外部工具的组块切分方法(Chunk Segmentation Method based on External Tools,T-CSM)和基于编码器的组块自动切分算法(Automatic Chunk Segmentation Method based on Encoder,E-CSM),实现基于单词层编码信息和组块切分信息的组块层模型构建。实验表明,上述方法有助于系统获得更多的源语言上下文结构信息。3)针对注意力模型,提出了基于组块的注意力模型(Chunk Attention Model,CAM)和基于组块和单词的融合注意力模型(Chunk+Word Attention Model,CWAM),以便将更多源语言和目标语言的组块知识融入上下文向量编码。实验表明,上述方法有助于系统获得更多编码器和解码器在不同层级上的状态信息。4)设计搭建完整的基于组块的汉法神经机器翻译系统。采用Open Subtitles2016汉法平行语料进行系统验证。实验结果表明,本文提出的E-CSM结合CWAM的方法能有效提高NMT的翻译效果,相较于基线系统,BLEU值提升了2.1。同时,与基于多隐层编码器的NMT系统进行对比实验,实验结果进一步验证了上述方法的有效性和实用性,证明了组块知识的引入对NMT系统性能具有重要作用。
其他文献
走时层析成像作为一种有效还原地层介质速度模型的地球物理反演方法,以其计算量小、计算效率高的优势,长期以来一直被深入研究与应用。本文详细讨论了射线走时层析成像的基本原理与方法,针对走时计算方法,采用了基于程函方程求解的快速扫描算法(FSM),该算法的计算量仅为O(N),相比于传统的快速行进法(FMM)与最短路径算法(SPM),具有更高的计算效率,并能保证足够的计算精度。本文对该算法的原理与数值实现方
近年来近红外光谱分析技术凭借其快速、高效、准确的特点已被广泛应用于各个领域。近红外区的光谱吸收带是由有机物的(C-H、N-H和O-H等)较高能量的官能团在中红外光谱区基频吸收的倍频、合频和差频吸收带叠加而成的,由于近红外谱区域的严重重叠性和不连续性,以及光谱数据的高维度性问题,因此物质的定量或定性相关的光谱信息很难直接提取并给予合理的光谱解析。而变量(波长)选择是近红外光谱多元校准中的关键步骤,可
目的:目前,许多研究积极探究了PD-1/PD-L1抑制剂联合治疗复发或转移性头颈部鳞状细胞癌的临床价值,但是各种联合治疗方式之间缺乏直接对比的研究证据,特别是与标准一线治疗相比。本研究旨在应用网状meta分析在R/M HNSCC中评估不同PD-1/PD-L1抑制剂治疗方案的有效性和安全性。材料和方法:在数据库中进行系统检索,筛选出截止至2020年3月符合纳入标准的II期或III期随机对照研究,并比
随着中国文化“走出去”战略的提出,中国越来越重视文化的保护与对外传播。中国土家族人口众多,文化极具特色,而传播其特色文化有助于响应中国文化“走出去”战略。土家族特色词汇蕴含丰富的特色文化内涵,因此其英译具有现实意义。本报告为《守护民族精神家园-湘西少数民族非物质文化遗产研究》中土家族特色词汇翻译实践报告,主要涉及的特色词汇包括:口头文化、民间舞蹈艺术、传统音乐艺术特色词汇等。本次翻译实践笔者将土家
近些年高送转股利政策在我国资本市场上被炒的火热。高送转作为一种股利政策可以扩张股本、提高股票流动性、向市场传达企业发展良好的信号,但是伴随着高送转现象常常出现的是损害中小投资者的利益,比如大股东减持、配合定向增发、配合限售股解禁,在许多时候这些行为严重侵害了投资者的利益,扰乱了市场秩序。针对这一现象,监管部门2017年明确表态将严治高送转并于2018年出台明文规定,对高送转概念股市场产生了不小的影
虚拟漫游技术在地产漫游、全景地图和虚拟旅游等领域有着广泛的应用。目前虚拟漫游技术中场景的生成方法主要分为两种:一种是使用三维模型手工搭建场景,该方法效果真实、细节
当前,我们国家正在经济和社会的全面发展的关键阶段中,企业的生存环境变得日益复杂,面临着很大的风险,现代企业面临的竞争环境也开始变得日益复杂,危机可以说是无处不在,企业面临着许多的营销风险。防范相关的营销风险,对于现代公司的发展来说需要引起重视,甚至最终能够成为决定该企业生死存亡的关键因素。在如今这个激烈的市场竞争当中,企业如何能够化“危”为“机”,使企业处在危机的时候能够有生存能力,尤其是怎么样将
国际著名文化研究学者劳伦斯·格罗斯伯教授在一次访谈中对文化研究的评价——“现在比以往任何时候都更重要的文化研究”,作为一种文化符号,韩国娱乐公司采用“文化技术”策略和对艺人的严格控制在东南亚市场运作良好,近年来在世界上都形成了现象级的发展。讨论大众流行音乐并不只是在谈论音乐,而是通过音乐、通过音乐的衍生产品来理解当下世界文化发展的“语境”。作为韩国政府对外文化输出策略的具体实践,韩国流行音乐及偶像
在经济全球化背景下,我国对外开放水平不断深化,双向直接投资规模不断扩大。外商直接投资(FDI)与对外直接投资(OFDI)是我国获取技术溢出和推动绿色技术进步的重要渠道,对于我国经济发展有重要的作用。FDI和OFDI能否促进我国绿色全要素生产率的提高备受关注。鉴于我国当前以低碳、绿色可持续为经济发展方式,研究如何利用国际投资的技术溢出提升绿色全要素生产率具有重要的理论意义和现实意义。本文主要研究FD
制造业是一个国家生产力水平的直接体现,是一个国家竞争力的重要标志,是国家实现社会进步与富民强国的基石。1978年以来,中国制造业凭借资源与劳动等要素支撑了中国经济的稳步发展,这主要是中国制造业高速发展的结果。尽管如此,中国制造业的发展依然面临许多问题,亟需通过提高技术创新水平扩大制造业竞争优势,从而实现制造业升级。本文基于2003-2017年30个省级面板数据,以技术创新对制造业升级的作用为主线,