【摘 要】
:
近年来,系统融合方法在机器翻译研究领域受到普遍的重视,取得了不错的效果。然而传统的系统融合都是黑箱的融合。即只用每个系统的翻译候选结果进行融合,这样虽然有着适用性
论文部分内容阅读
近年来,系统融合方法在机器翻译研究领域受到普遍的重视,取得了不错的效果。然而传统的系统融合都是黑箱的融合。即只用每个系统的翻译候选结果进行融合,这样虽然有着适用性广泛的优点,但是翻译系统的中间输出(日志)信息都没有被很好的利用起来,因此也就无法充分的发挥系统融合的优越性。本文首次提出使用翻译系统的日志信息进行白箱融合。将日志信息用于两个方面:词语级系统融合中的对齐部分和短语级系统融合。该方法充分使用了每个系统已有的翻译知识—日志信息—进行融合。主要思想是先将每个系统的翻译词语根据日志信息与源语言进行对齐,再间接的进行翻译系统间词语的对齐。为利用日志信息,我们实现并改进了基于IBM model l的双语句对切分算法。实验结果表明,不论是融合后翻译的质量还是融合时间,基于日志信息的系统白箱融合方法都要好于传统的系统融合方法。为了解决基于日志白箱系统融合的一个局限性—也正是黑箱融合的优势—一些翻译系统没有日志信息,我们提出了两种将多个对齐系统进行融合的方法:句子级融合与词语级融合。多对齐系统融合方法其实就是在原来的融合基础上进行二次融合。这种做法在增加了白箱融合适应范围的同时还提高了最终系统的翻译质量,能够保证最终的翻译结果一定会好于最好的对齐系统的融合结果。为了解决每个对齐系统权重的设定问题,我们提出动态调整和感知机训练两种方法,并实现了前者。试验结果表明,多对齐系统融合方法对提高最终的翻译质量是有帮助的。值得一提的是,本文中提出的基于日志信息的白箱融合方法之前从未被别人使用过,完全由微软亚洲研究院自然语言计算组首次提出并研究。该方法适用性广泛,可以用于包括统计机器翻译—当今的主要研究方向—在内的任何形式的机器翻译系统间的融合。
其他文献
网格是构建在互联网上的一组新兴技术,网格安全是网格系统中必不可少的机制。为解决网格环境中的动态性和不确定性所带来的安全问题,将信任机制引入到网格环境中,通过对网格
软件体系结构描述语言ADL(Architecture Description Language, ADL)具有严格的形式化语义基础,为软件体系结构的表示与分析提供支持,已成为软件工程研究领域的热点。随着软
软件复用是提高软件产品质量和软件生产效率的关键技术,它分成生成型复用和组装型复用两类。目前,生成型复用的主流技术是模型驱动开发(MDD),它从平台无关模型(PIM)或平台相关模型(PS
随着信息技术的发展,企业在经营过程中建立了大量的应用系统,而这些应用系统存在结构异构、集成困难的问题。用户在处理业务时往往需要调用大量应用系统中的服务,如何有效地
中医是中华民族的瑰宝。然而由于历史条件的制约,传统中医理论往往带有很强的主观性,其诊断手段也缺乏客观化诊断标准,故被许多人认为是一门经验科学,其科学性也屡遭质疑,严重阻碍了中医学的发展。如今,中医学的发展正强烈的呼唤着现代科学技术新方法、新手段的支持。如何在保持中医诊断自身优势基础上,通过现代技术手段改革与创新传统中医诊断学,实现中医诊断的客观化、标准化,将其纳入到现代科学技术发展的轨道是国人亟待
图像语义分析与描述是多媒体领域非常活跃的研究方向,研究目的是设计符合人类认知的算法和系统,实现图像信息的有效组织、管理和共享。图像语义分析与描述是图像应用软件实现商
大脑是一个非常复杂的系统,在这个系统中,多个神经元、神经元集群或者多个脑区相互连接成庞杂的结构网络,并通过相互作用完成脑的各种功能。大脑是神经系统的中心。神经系统复杂
随着经济全球化以及信息技术的高速发展,网络化服务的种类层出不穷,单一化服务已不能满足市场需求,组合服务的出现解决了这一危机。目前有关组合服务研究主要集中在组合服务
中文命名实体识别是指识别出文本中特定的实体。它是机器翻译、文本分类、信息检索和自动文摘、自动问答等多种自然语言处理技术的基础。作为信息抽取的基本任务,为了促进其