统计机器翻译中的词对齐研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:flyingflying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的蓬勃发展,跨语言交流日益频繁,传统的基于人工的语言翻译己不能满足互联网中海量的、实时的翻译需求,机器翻译的研究应运而生。在不同类型的机器翻译研究中,统计机器翻译因其良好的自动学习能力和不同领域上较好的翻译效果而逐渐受到人们的青睐。词对齐是统计机器翻译的一项核心任务,它从双语平行语料中发掘互为翻译的语言片段,是翻译知识的主要来源。近年来,判别式的词对齐方法取得了较大的进展。与生成式模型相比,判别式模型更易于融入多样性的特征,因而具有更强的可扩展性,且往往能取得较好的性能。然而,判别式词对齐研究始终面临如下几个重要问题:首先,词对齐的搜索面临两难的困境,由于搜索空间巨大,精确搜索往往较为困难,而采用近似搜索的方法往往会对结果的准确性造成一定的影响。其次,判别式方法的学习过程往往依赖于人工标记的词对齐数据,而词对齐的标记数据数量较少、标记成本高昂。随着判别式模型中所使用特征数量的不断增长,相对不足的标记数据数量往往会影响学习效果。此外,长期以来用于衡量词对齐质量的指标(词对齐错误率,AER)与机器翻译的最终评价指标的相关性不强,这使得部分判别式学习的方法虽然能够显著降低词对齐错误率,但并不能显著提升翻译结果的质量。本文针对上述问题对判别式词对齐学习展开研究,主要工作包括:1、提高基于反向转换文法(ITG)的词对齐搜索效率:针对词对齐的结构性歧义问题,分析了歧义的产生原因,并提出了一种改进的ITG文法——LGFN文法,该文法可以有效地消除结构性歧义从而提高搜索效率;针对词对齐搜索中的剪枝问题提出了一种假设剪枝方法,该方法能够在进行同步句法分析的过程中,动态地对词对齐假设进行筛选,从而使得搜索被约束在较高质量的词对齐空间中,进一步提高了搜索的效率。2、针对人工标记的词对齐数据较少的问题提出了一种半监督的词对齐学习框架。该框架通过独立性假设将词对齐融合问题转换成二元分类问题,并采用半监督学习的方法,利用大量的未标记样本来提高分类模型的性能。与结构化的搜索方法相比,通过一系列的二元分类决策来完成词对齐任务提高了搜索的效率,使得大规模数据上的半监督学习变得可能。随着分类性能的提高,词对齐的学习结果也得到了相应的提升。3、通过分析词对齐错误对翻译规则生成的影响,提出了一种错误敏感的词对齐评价方法(ESAER)。该方法可以对不同类型、不同程度的词对齐错误施以不同的惩罚。与AER相比,ESAER兼顾了词对齐对机器翻译系统的影响,因而与机器翻译的结果评价指标具有更强的相关性。
其他文献
目的探讨腹腔镜探查术在急腹症治疗中的临床价值。方法回顾性分析重庆市璧山县人民医院2010年9月-2013年3月收治的96例不明原因的急腹症患者的临床资料,其中腹腔镜手术56例,
在21世纪,我国的交通产业正以惊人的速度向前发展着.高铁紧密地联系着各大城市,地铁让城市拥堵变得不再恼人.而就在2016年,我国又兴起一股“复古”的出行风潮——共享单车.共享单车
尽管现在还没有一个公认的资产负债率的标准,但70%以上的资产负债率一般都被认为是偏高的,这点几乎已经成为共识.资产负债率越高,说明企业使用的总资本中需要还本付息的那部
《空中交通系统优化与管理》课程是面向民航院校交通运输专业的一门重要专业基础课程。本文对该课程与工程教育专业认证的关系进行梳理与分析,总结该课程在工程化教育背景下
采用均匀沉淀法合成Zn O纳米颗粒(Zn O NPs),以Zn O NPs为种子,制备水溶性Au/Zn O异质结构。将Au/Zn O异质结构附着于离子液体功能化石墨烯(GN)复合膜上,形成一种新颖的负载型石
近些年来,我国的高速铁路事业取得了巨大的发展,很大程度上解决了大城市之间的交通问题,提高了人们的出行效率。为了保证高速铁路运行的平顺性和稳定性,并尽量避免影响铁路沿
随着我国城镇化的快速发展,城市农产品配送问题越来越突出,各级政府就深入推进新型城镇化建 设提出了 一系列重大决策方案,来探讨农产品物流转型升级问题.其中,积极探索农产
天镇县在窗口服务部门开展“四亮四评”创先争优活动,推行阳光、微笑、规范、高效、诚信、廉洁服务。“四亮”是指:亮流程,通过展板、便民服务手册、卡片、网站等,公开窗口单