论文部分内容阅读
语料库语言学的兴起,使得基于实例的机器翻译(example based machine translation,EBMT)得到越来越多的研究。
而随着信息时代的到来和Internet的迅猛发展,在面对海量信息的今天,传统的基于实例的机器翻译系统中关于语料库的建设方式已凸显不足。如何快速、准确的收集资源、构建所需的语料库成为一个急需解决的问题。本文的研究正是解决这一问题的有力手段之一。
面向机器翻译的模板自动获取技术研究以东北大学自然语言处理实验室和日本富士施乐公司合作开发的“面向奥运新闻的汉日机器翻译系统”为需求背景。该系统分为三个模块儿:翻译记忆(TM)、词表层翻译(WBMT)和模板层翻译(TBMT)。本研究正是为了解决模板层翻译(TBMT)所涉及的一系列问题。
本文主要针对如何自动快速构造模板层翻译所需的语料库即模板库进行了研究,提出了一种对译模板的表示形式,设计了一套完整的生成规范并给出了一种自动获取的算法,最终实现了该系统。我们从项目已有的五万词对齐库中一共抽出近三万六千个对译模板对儿,并成功构造模板库用于模板层翻译。经实验测试准确率和召回率分别为66%和61.3%,已通过项目验收。
本文另外一个研究工作是针对汉语单语模板的抽取研究。该方法既可用于构造汉语单语模板库,也可用于模板层翻译(TBMT)时的源语模板生成。针对这一问题,本文同样提出了汉语单语模板的表示形式和一套完整的生成规范以及自动获取的算法,最终实现了系统。我们从项目已有的五万词对齐库中共抽出单语模板三万八千多个,构成单语模板库。经实验测试准确率和召回率均为66%,同样通过项目验收。
本文还提出了一种相似模型,用于在模板聚类过程中计算模板间的相似度。该模型也可用于模板层翻译(TBMT)时的模板匹配。