基于词对和词典的句子对齐研究

来源 :苏州大学 | 被引量 : 1次 | 上传用户:lulei81331502
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句子对齐是将源语言文本中的句子映射到目标语言文本中对应翻译的过程,作为构建和扩充平行语料库的核心技术,其性能的优劣影响着平行语料库的质量。本文集中于通过神经网络建模句对间的词对关系、词对重要性以及融入词典知识来改进句子对齐性能的研究,主要内容如下:(1)基于词对建模的句子对齐。考虑到相互对齐的两个句子中通常含有大量相互对齐的词对这一事实,本文探索源语言句子和目标语言句子之间的词对关系,并提出了基于词对建模的句子对齐方法。该方法首先利用双向循环神经网络来编码输入的句对,然后使用门关联网络来计算句对中词对的语义关系,并通过多层感知器进一步融合语义关系来判断该句对是否对齐。(2)带多视角注意力的基于词对驱动句子对齐。考虑到对齐的句对中包含多个对齐的词对,而这些词对在句对语义关系中又扮演着不同重要程度的角色,本文探讨了建模词对重要性及其关系的句子对齐方法。首先通过融合三种相似性度量方法的词对关联网络从三种角度获取词对间语义关系,然后利用多视角注意力网络同样地从三种角度对词对重要性进行建模,最后通过二者结合来确定句对是否对齐。(3)融入词典知识的基于词对驱动句子对齐。受大部分借助外部词典的句子对齐方法的启发,本文探索了如何将词典知识有效地融入到句子对齐的神经网络模型中。具体地,提出了三种跨语言编码器来融入单词翻译信息:混合编码器,将单词及其翻译交替输入到编码器中;特征编码器,直接拼接单词及其翻译的词向量作为编码器的输入;门控编码器,使用门机制有选择地控制输入编码器中的单词翻译信息量。基于公开评测的中英翻译NIST MT数据集和电影字幕OpenSubtitles2018数据集,实验表明本文提出的方法能够明显地改善句子对齐性能。
其他文献
滤波器组多载波技术/交错正交幅度调制(Filter Bank based Multi-Carrier/Offset Quadrature Amplitude Modulation,FBMC/OQAM)技术方案由于频谱旁瓣泄露低、无需循环前缀、
随着新媒体技术的发展和信息传播环境的变革,数据已然成为当今社会运营和个人日常生活经营的一种核心资源。作为担负着传播信息、监测环境、对周遭世界的变化作出解释的新闻
目前,关于普通硅酸盐水泥与硫铝酸盐水泥两种水泥混合使用的研究较多,前期研究表明,两种水泥互掺不但可以发挥各自优点,还可以缩短凝结时间。但研究仅限于两种水泥互掺,并未对矿物掺合料对两种水泥复合体系的影响进行深入探讨,矿物掺合料的掺加,既可以对普通硅酸盐水泥-硫铝酸盐水泥复合体系的性能有一定的改善作用,又可以节约环保降低成本。本文研究了普通硅酸盐水泥、聚羧酸减水剂及矿物掺合料对普通硅酸盐水泥-硫铝酸盐
随着城镇化进程的不断推进,城市生态圈的不断变迁,我国正面临着前所未有的环境问题,在雨水领域突出表现为城市内涝积水发生的频率和影响范围都显著增加。由于城市本身的组成和结构较为复杂,且在雨水系统开发领域,如今应用较广的LID理念无论是理论深度还是先进程度都存在一定程度的不足,故需要提出较新的、适应新时代雨水系统开发要求的设计理念为城市新型雨水系统构建提供指导性意见。有鉴于此,本文提出了“灰-绿”设施耦
要想提高熔铝炉燃料的利用效率和企业的经济效益,就必须要对熔铝炉的烟气进行回收和利用,只有这样熔铝炉的节能性能才能得到提升。
随着国家大力推进工业化、城镇化、信息化、农业现代化,各民族跨区域大流动的趋势越加显著。2015年以来我国少数民族流动人口超过3000万,占全国流动人口的10%以上。以往民族工
报纸
近年来,我国的水污染问题日益严重,尤其是化学工业和重工业集中的地区。为了解决污染问题,就需要对污染的情况进行认真地观察及合理分析,以便找出解决污染问题的方法。本文主要讨
博格达山属北天山的东支、东天山的北支,位于中亚造山带的南部。虽然目前对博格达山的构造变形方面已经有了初步的研究,但这些研究还非常有限,并存在较多的争议,尤其对于博格
高考地理试题突出考查接受、吸收、整合地理信息的能力,突出考查了从地理视角分析和解决问题的能力,注重了地理知识与科技、生产、生活的密切联系,强调了实践性和应用性。为此,选