基于改进seq2seq模型的英汉翻译研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:brian125
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是自然语言处理领域的一个重要课题,具有巨大的科研价值和广阔的商业应用前景。当今机器翻译领域效果最好的方法是自2014年首次提出的神经机器翻译模型,其中最主流的是基于注意力机制seq2seq模型。现有seq2seq模型主要在印欧语系上进行优化与评测,少有针对中文的优化,且现有模型没有考虑到不同语言间语法的变换。本文针对中文特点,使用了不同的文本预处理和嵌入层参数初始化方法,并改进了 seq2seq模型结构,在编码器和解码器之间添加了一层用于语法变化的转化层。本文主要工作如下:1.提出不同的文本预处理方法。在自然语言处理任务中,需要先通过预处理将非结构化的文本数据转换为计算机可识别的数据格式。翻译系统中传统的中文预处理方法是通过分词将中文句子转换为词语序列,但这种方法依赖分词的准确率且会导致中文词汇量过大。本文针对中文字符种类多、字符信息熵大、表意能力强等特点,提出通过命名实体识别,将中文句子转换成字符+命名实体序列的预处理方法。通过实验发现,使用该预处理方法,在英汉翻译任务中,能缩减翻译模型的参数规模和训练时间18%以上,且翻译性能有0.3~0.5BLEU的提升。2.提出不同的嵌入层参数初始化方法。嵌入层是用于文本处理的神经网络模型中的第一层,将预处理后的字符序列转换为数值向量序列,以支持后续的数值计算。深度学习中参数初始化方法的选择对模型的收敛位置至关重要,现有的翻译模型中,通常会选择预训练的词向量作为嵌入层参数的初始化值。但由于翻译系统中需要使用两种不同语言的词嵌入表示,而预训练的词向量在不同语言的语料中训练,导致不同语言的词向量语义上并不契合。因此,本文提出在英汉翻译模型中,英文端使用GIoVe进行嵌入层参数初始化,中文端使用随机初始化。通过实验发现,使用该参数初始化方法训练的英汉翻译模型,在中小型规模的语料上翻译性能有0.3~0.6BLEU的提升。3.改进seq2seq模型结构,提出转换层。现有seq2seq模型中,源语言序列通过编码器生成一个表示向量,然后表示向量直接作为解码器的初始状态,生成目标语言序列。但这一结构没有考虑到不同语言之间语法的变化。因此,本文改进了 seq2seq模型的结构,在编码器和解码器之间添加了一层用于语法变化的转换层。该转换层由两层前向神经网络、残差连接和一层规范化层组成。通过实验发现,使用了转换层的seq2seq模型翻译性能上有0.7~1.0BLEU的提升。
其他文献
鸽子的某些厌氧菌感染性疾病,在鸽病临床上十分常 见。如果你对此疾病还没有足够的认识和准备,那么,此 文将使你获益非浅。
In this paper,we propose a behavior-based path planner that can self-learn in an unknown environment.A situated learning algorithm is designed which allows the
《论语》与《孟子》等国学经典的译介是对外文化交流的重要途径,无论在历史上还是在当代,这些国学经典在日本的译介状态都是值得我们关注和研究的重要对象。本文引入历史视角
目的研究TM4SF1对内皮细胞体外管腔形成的影响。方法应用qRT-PCR方法检测人脐静脉内皮细胞(HUVECs)中TM4SF1的mRNA表达量;应用siRNA方法瞬时转染HUVECs,采用qRT-PCR方法检测转染4
目的探讨预见性护理干预在冠心病患者中的应用效果及其对患者生活质量的影响。方法 2014年6月至2015年6月根据抽签法随机将120例冠心病患者分为观察组(n=60)和对照组(n=60),
目的 探讨血清胱抑素(Cyst-C)、尿微量白蛋白/肌酐(UmAlb/UCr)对高血压患者早期肾损害的诊断价值.方法 根据肾动态显像结果将85例原发性高血压患者分为早期肾功能损害组(A组)32例和
附认股权公司债与可转换债券都属于混合型证券,本文着重分析了这两种衍生工具不同于普通买权的期权特性及其财务效应。
文章依据《中国工业经济统计年鉴》中的统计数据,以27个工业为研究对象,基于产业梯度系数测度的优势产业,采用相对梯度系数对河南省应承接东部地区产业转移的行业选择进行研
【正】小蒂姆在后院一角正在挖个大坑。他在那儿干了很久,坑挖得又大又深。女邻居透过厨房的窗户观望了一段时间后,打算走出房门去看看是怎么回事。“蒂姆,干吗要在院子里挖
期刊