机器翻译上下文表示方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yao080803
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,通过大规模神经网络将自然语言单元表示为连续空间向量用以代替传统的离散符号的方法,极大地提升了各种自然语言处理任务的性能。机器翻译作为自然语言处理领域中最具挑战性的研究任务之一,从最初利用神经网络方法改善统计机器翻译模型,再到构建端到端的神经网络机器翻译模型,机器翻译取得了巨大的进步。面向机器翻译的神经网络方法通常基于句子中的上下文信息来隐式地学习源端句子表示和目标端译文生成。由此可见,上下文信息在机器翻译中扮演着极为重要的角色。神经网络方法能够通过连续空间的向量捕获翻译上下文信息和被预测目标单词之间的语义相似性,但由于神经网络的训练具有较高的时空复杂度,导致其仅仅在词级别上来模拟翻译上下文信息用于生成目标语言翻译。直观上,一个自然语言句子的构成,不仅包括基本的词级别信息,而且包括高阶上下文信息,比如局部上下文、结构化上下文和句子级主题上下文等信息。与基本的单词信息相比,这些具有丰富翻译知识的上下文信息往往会导致大规模的高阶上下文单元,而直接通过神经网络建模又会面临严重的数据稀疏性问题和极大的时空复杂度。为此,本文首先探索如何利用神经网络来表示机器翻译中的高阶上下文单元,并以基于依赖的双语上下文为切入点在统计机器翻译中进行了有效性验证。其次,基于这种高阶上下单元表示方法,依次从局部上下文、结构化上下文和句子级上下文等三个层面对神经网络机器翻译的上下文表示方法展开研究,使得神经网络机器翻译能够捕获更加丰富有效的翻译知识来改善翻译预测。因此,本文主要内容包括以下四个方面:1.在机器翻译中,高阶上下文单元能够编码更多的上下文信息用于翻译预测。但这些高阶上下文单元往往面临着严重的数据稀疏性问题,进而难以捕获上下文中的结构化信息。同时,传统的离散符号表示方法也难以捕获翻译上下文与被预测目标语言单词之间的语义相似性。因此,本文提出了一种基于依赖的神经网络联合模型,既能够通过神经网络来捕获语义相似性,又能够通过卷积架构的语义组合属性极大地缓解由高阶上下文单元所引起的数据稀疏性问题,进而能够有效的捕获翻译上下文中的长距离依赖信息用于翻译预测。通过在统计机器翻译模型上的实验,验证了这种新的方法显著地优于传统的基于离散符号的上下文表示方法,尤其是通过显式地编码源端长距依赖约束,超过了著名的基于词序列的神经网络联合模型。2.在自然语言中存在着大量的多义词,也即一个单词往往可以表示多种不同的含义。在现有的神经网络机器翻译模型中,不论一个单词具有多少种不同的含义,都会被表示为一个单一的实值向量来编码这个单词的所有含义。在学习源端句子表示时,编码器不能充分地捕获源端句子中的多义词信息,进而导致注意力机制所学习到的上下文向量难以生成正确的目标单词翻译。而当源端句子中包含有集外词(未被词汇表所覆盖的单词)时,这个问题会变得更为严重。为此,本文提出了一种基于局部上下文的词汇表示方法来为每一个源端单词动态地学习一个特定句子的局部上下文向量用以强化神经网络机器翻译框架的词嵌入层,进而改善单词(尤其是多义词和集外词)的向量表示和翻译。3.神经网络机器翻译模型通常依靠神经网络顺序地处理源端输入来隐式地编码源语言句子中的句法和语义信息,而未曾显式地考虑翻译上下文中的结构化信息。在统计机器翻译中,结构化翻译知识已经被证明有益于翻译预测。为此,本文提出了两种新的方法(包括源端依赖表示方法和句法导向注意力方法),用以将源端长距离依赖上下文信息引入到现有的神经网络机器翻译模型中,使得翻译模型能够捕获那些在句法上更为相关的源端上下文信息来改善翻译预测。4.神经网络机器翻译模型通常聚焦于词级上下文信息来预测目标语言单词,而未考虑句子级上下文信息。在自然语言中,一个单词往往在不同的主题(或领域)中具有不同的含义。而在神经网络机器翻译模型中,一个单词往往在不同的句子中具有不同的主题,甚至在一个单词在同一个句子中可能具有不止一个主题。这意味着句子级上下文信息中包含了单词的主题信息。因此,本文提出了一种句子级主题上下文表示方法,将句子级上下文信息表示为一种隐含主题向量序列,并通过注意力机制将其引入到现有的神经网络机器翻译模型中用于改善翻译预测。这种方法能够与现有的神经网络机器翻译模型进行一体化训练,进而联合学习句子级主题上下文信息和目标单词的翻译。
其他文献
一、影响科技创新成果转化的因素在黑龙江省,由于农业生产者数量庞大,文化水平普遍较低,虽然广播电视、报刊等传媒在农业科技成果的传播中发挥了一定的作用,但是最主要、最有效的
当前,我国正逐步进入老龄化社会,老龄化向高龄化发展速度也非常迅猛,长此以往,在老龄化高速发展下必然会引发大量的社会问题和养老问题,其中养老问题表现的最为突出。究其原
[目的]研究早期活动对胸腔镜下肺叶切除术后病人的影响。[方法]选取2013年1月—2014年3月行胸腔镜下肺叶切除术病人179例,按下床活动时间分为3组,A组术后12h内下床活动,B组术
国医大师柴嵩岩教授提出,高泌乳素血症病机为热毒浸淫、冲任失调。临证需辨溢乳、月经、大便、头窍之症状。治法以清热解毒、益肾调经。用药以清热解毒、消肿散结之品为主,配
近些年来,我国计算机软件开发已经成为一个巨大的产业,这极大的推进了我国科技进步和社会发展,计算机软件是软件开发者智慧的结晶,因此,如何确保开发者的权益即保护开发者的专利权
【正】 人口数量给社会经济政治影响最为显著,因此也是人口学上争论最多的一个问题。最近,联合国发起世界“50亿人口日”纪念活动.更引起人们对人口数量的极大关注。马克思主
篮球作为集体球类项目,以其独特的健身功能、教育价值以及运动趣味性深受广大中小学生喜爱。为推动“校园篮球”的发展,国家出台了一系列政策纲领,提出要大力推进“校园篮球”工作,2017年教育部提出要形成一批“校园篮球”教育教学工作引领示范典型学校。贵阳市是首批校园篮球试点省市,本文期待通过对贵阳市篮球特色学校篮球运动开展的现状以及政策贯彻落实的情况进行调查分析,提炼出“校园篮球”特色学校发展中的优点,为
目的探讨临床护理路径在老年白内障围术期中的应用效果。方法将80例老年白内障手术患者随机分为观察组和对照组,对照组实行专科护理,观察组给予临床护理路径,比较2组的护理效
改革开放以来,中国经济发展所取得的成就举世公认,但与此同时,社会矛盾频发,利益冲突加剧,正如十九大报告中所指出的,我国社会主要矛盾已经转化为人民日益增长的美好生活需要
胶质瘤是颅内最常见的肿瘤,手术切除,结合术后放化疗仍然是胶质瘤的标准治疗方案。虽然化疗可以延缓疾病进展,但胶质瘤的预后仍然很差。其中,多形性胶质母细胞瘤患者的5年生