统计机器翻译中的一致性解码方法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:snoopy_cp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近二十年来,机器翻译(machine translation,MT)研究迅猛发展。相比于传统的基于规则(rule-based)和基于实例(example-based)的机器翻译方法,统计机器翻译(statistical machine translation,SMT)在译文质量和系统鲁棒性上均展示出巨大优势,并已经成为机器翻译研究领域中的主流方法。给定源语言输入,机器翻译的任务在于生成与该输入表达意义相同的目标语言输出。典型的SMT系统在完成上述翻译任务的过程中,往往能够生成多条不同的目标语言翻译假设(translation hypotheses)。然而,由于翻译模型本身的局限性,系统排名最高(1-best)的翻译假设通常却并不是全部翻译假设中的最优结果;此外,基于不同翻译模型SMT系统的大量涌现,进一步扩展了相同源语言输入能够对应的目标语言翻译候选集合大小。在上述背景下,如何有效地利用不同翻译假设及其包含的信息来获取更优的翻译结果,已经成为近年来机器翻译研究领域中的一个热点课题。   本研究将目前已有的研究成果大体分为如下两类,并提出一个统一的一致性解码(consensus decoding)框架,将这两类方法包括其中:⑴翻译假设重排序,主要应用于单个SMT系统的翻译假设空间之上。该类方法通过选取特定的评判准则,对整个翻译假设空间中所包含的全部翻译假设进行重打分并重新排序,进而选取重排序后排名最高的翻译假设作为最终的翻译结果;⑵系统融合,主要应用于多个SMT系统的翻译假设空间之上。根据其使用翻译单元的不同,该类方法又可划分为句子级(sentence-level)、短语级(phrase-level)和词汇级(Word-level)三种不同的层次。其中,词汇级系统融合能够提供的性能提升最为显著,因此相关方面的研究成果也最多。   本文针对已有典型工作的不足,提出四种新型的一致性解码方法:①基于特征子空间的句子级系统融合给定任意基于对数-线性(log-linear)模型的(主)SMT系统,通过选取该系统特征全集的不同特征子集来构造多个(子)SMT系统,进而在全部系统的输出结果之上使用一种句子级系统融合方法,来选取最终的翻译结果。该方法的贡献在于:提出了一种简单有效的多SMT系统构造方法,极大程度地减少了系统融合工作中多翻译系统构造方面的巨大开销;②协作解码给定多个基于对数一线性模型的SMT系统,通过共享翻译假设空间的方式允许不同翻译系统进行交互,每个翻译系统通过使用一组基于其他翻译系统生成的翻译假设空间计算得到的n-gram统计量特征,来对自身的(局部和全部)翻译假设空间进行重排序。在协作解码完成后,还能够通过系统融合的方法获取进一步的性能提升。该方法的贡献在于:在解码过程中直接发生作用,能够在一定程度上避免更优的局部翻译假设被较早剪枝(pruning)的问题;③基于混合模型的最小贝叶斯风险解码使用混合模型将多个SMT系统的翻译假设概率分布整合,利用整合后的概率分布在多个SMT系统合并后的翻译假设空间上计算MBR解码所需的n-gram统计量特征,进而从全部翻译候选中选取最终的译文结果。与传统的MBR解码方法相比较,基于混合模型的MBR解码所能访问到的翻译假设数目更多、差异性更大,并且基于混合概率分布计算的n-gram统计量也更为准确,因此,该方法能够获得的性能提升也更多。该方法的贡献在于:将最小贝叶斯风险解码的应用范围从单个SMT系统扩展到多个SMT系统;④翻译假设混合解码通过利用来自多个SMT系统的局部翻译假设来构造一个更大的混合假设空间,并利用一系列基于一致性的统计量特征从该空间中选取最终的翻译结果。大规模数据上的机器翻译评测实验表明,该方法在翻译性能上显著地优于翻译假设重排序和词汇级系统融合方法。该方法的贡献在于:同时继承了翻译假设重排序和系统融合两类方法的优点,不仅能够使用来自任意SMT系统生成的局部翻译假设构建更大的翻译假设空间,而且能够产生已有翻译假设候选集合之外的新的翻译结果。   本研究在每种方法的对应章节中,均通过大规模数据上的中-英机器翻译评测实验,来验证各个方法的有效性最后,总结全文,并对未来工作进行展望。本文所探讨的一致性解码方法均针对统计机器翻译任务。然而,该类方法中所包含的思想同样适用于其他很多自然语言处理任务,如统计句法分析、自动语音识别、自动词对齐等。在将来的研究中,我们也将尝试在这些领域进一步扩展一致性解码方法的应用范围。
其他文献
随着GIS技术的快速发展,空间数据库在各个领域都得到了极大的发挥,其主要的任务是对空间数据实现有效的存储,进而实现高效访问的目的。空间数据具有海量性、内部结构复杂性、
心肌细胞的数学模型是描述整个器官组织的电生理活动的基础模型。在基础科学和临床诊断研究领域,研究人员使用这些模型来创建心脏的数值模拟,并能取得比较理想的效果。心室的
随着网络信息的爆炸式的增长,各种信息充斥着整个网络环境。人们现在已经习惯于去网络上搜寻一些解决问题的方法。当用户并不是十分熟悉一些搜索技巧的时候,他们往往需要花费很
物联网的快速发展,为现代社会提供了以万物互联为基础的巨大信息交互平台,是互联网时代信息获取和共享的更进一步的发展。而无线通信的高速发展,为物联网实现更大规模的信息
H.264视频编解码标准是由国际标准化组织ISO/IEC和国际电信联盟ITU-T联合制定的,又称为MEPG-4part10。与之前的标准相比,它的压缩比更高,网络亲和性更好,然而由于算法的复杂性,使
受物理极限和功耗散热等原因的限制,处理器工作频率的提升遇到了瓶颈。现在人们逐渐转向新的方式来进一步提高处理器的性能,比如在单个芯片上集成多个处理器核,于是同构和异构的
伴随着多媒体技术的快速发展与数码设备的广泛普及,在采集、存储、传递数字信息越来越便捷的今天,数字多媒体内容安全和数字出版物版权保护成为人们关注的焦点。数字水印技术
由于社会信息的日益复杂化,在许多领域,例如运筹学、管理科学、信息科学、工业工程、航天技术以及军事中都存在人为的或者客观的不确定性,表现形式也多种多样,如随机性、模糊
病虫害对植物的迫害已经成为一个严重的问题,尤其对于农作物来说,不仅会造成大面积的减产或绝收,而且会给某些经济产业带来一定程度的影响。因此,通过研究植物和病虫害间的相互作
动态场景下的视频监控,尤其人物或者交通工具的监控,是计算机视觉主要的研究方向,拥有广阔的应用前景。主要包括,特殊区域的监控,远距离人物识别,人流统计,和拥塞分析,异常行为检测以