面向机器翻译的模板自动获取技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:zzhijian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语料库语言学的兴起,使得基于实例的机器翻译(example based machine translation,EBMT)得到越来越多的研究。 而随着信息时代的到来和Internet的迅猛发展,在面对海量信息的今天,传统的基于实例的机器翻译系统中关于语料库的建设方式已凸显不足。如何快速、准确的收集资源、构建所需的语料库成为一个急需解决的问题。本文的研究正是解决这一问题的有力手段之一。 面向机器翻译的模板自动获取技术研究以东北大学自然语言处理实验室和日本富士施乐公司合作开发的“面向奥运新闻的汉日机器翻译系统”为需求背景。该系统分为三个模块儿:翻译记忆(TM)、词表层翻译(WBMT)和模板层翻译(TBMT)。本研究正是为了解决模板层翻译(TBMT)所涉及的一系列问题。 本文主要针对如何自动快速构造模板层翻译所需的语料库即模板库进行了研究,提出了一种对译模板的表示形式,设计了一套完整的生成规范并给出了一种自动获取的算法,最终实现了该系统。我们从项目已有的五万词对齐库中一共抽出近三万六千个对译模板对儿,并成功构造模板库用于模板层翻译。经实验测试准确率和召回率分别为66%和61.3%,已通过项目验收。 本文另外一个研究工作是针对汉语单语模板的抽取研究。该方法既可用于构造汉语单语模板库,也可用于模板层翻译(TBMT)时的源语模板生成。针对这一问题,本文同样提出了汉语单语模板的表示形式和一套完整的生成规范以及自动获取的算法,最终实现了系统。我们从项目已有的五万词对齐库中共抽出单语模板三万八千多个,构成单语模板库。经实验测试准确率和召回率均为66%,同样通过项目验收。 本文还提出了一种相似模型,用于在模板聚类过程中计算模板间的相似度。该模型也可用于模板层翻译(TBMT)时的模板匹配。
其他文献
随着互联网的迅猛发展,网上的信息资源也在不断增加,搜索引擎技术给人们检索信息带来了很大的便利。但现有的搜索引擎都是运行在整个因特网上,对局域网内的一些内部资源不能进行
无线Ad Hoc网络因其组网快速、灵活和使用方便等优点,在民用、商用和军事通信领域有着广阔的发展前景,已成为目前无线网络研究的热点。对大规模Ad Hoc网络采用分层管理已经成
协同设计(Collaborative Design)是计算机支持协同工作(Computer Supported Cooperative Work,CSCW)的一个重要领域。在协同设计中,通常按照产品结构层次将一个复杂任务分解
随着光伏产业的迅猛发展,太阳电池质量变得愈发重要,质量好的太阳电池不仅稳定性好、使用时间长而且光电转换效率高,成为太阳电池生产商市场竞争力的一项重要指标。太阳电池的缺
随着人们日益增长的个人通信需求,Ad hoc网络的发展和应用前景十分广泛。由于Ad hoc网络多跳、拓扑动态变化以及移动节点的资源和功能较为有限等特点,因此需要对Ad hoc网络进行
小麦种植面积和生产数量世界上占据第一位,是不可或缺的粮食作物。在世界上,有三分之一的人口以小麦做为主要粮食,在我国,小麦产量是整个农业的基石,在国民经济中也占据着举足轻重
在许多实际工程和科学研究中,混沌现象已经成为普遍存在,因而对混沌的研究显得越来越重要。本文采用理论推导和数值模拟相结合的方法研究了混沌控制、同步及加密的相关问题,取得
分子影像技术是新兴的综合交叉学科,它属于应用影像学方法,分子影像技术可以在分子水平和细胞水平上实现生物病理变化的连续动态的在体成像,目前分子影像技术已经广泛地应用
随着Internet的迅速发展和宽带网络的普及,视频点播(Video On Demand)系统作为一种新兴的传媒方式,可以通过多媒体网络将视频流按照个人的意愿送至任一点播终端,是宽带网络运
基于对象的第二代编码标准MPEG-4最重要的特点是利用视频对象来描述内容和编码,这就需要先进行视频对象分割。分割算法性能的好坏对最终MPEG-4编码产品的质量至关重要。正是基