基于实例的汉阿语言机器翻译系统的研究与实现

来源 :长安大学 | 被引量 : 2次 | 上传用户:alivealive
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译作为计算机自然语言处理的一个重要分支。近年来,随着计算机计算速度,存储容量的不断提高,基于实例的机器翻译方法越来越受到研究者的青睐。基于实例的机器翻译(EBMT)克服了基于规则的机器翻译系统在知识获取方面的困难。双语语料库在基于实例的机器翻译,翻译知识的获取,词义消歧等领域有着重要的应用价值,大规模双语语料库的建设是进行基于语料库研究的基础。如何通过现有的互译文本来建立大规模的双语语料库,对双语互译文本的加工成为至关重要的问题。论文讨论了当今机器翻译的主要方法,并在此基础上重点介绍了基于实例机器翻译(EBMT)的基本原理及其需要研究的相关技术,包括双语语料库的建设、目标语句的重组、汉阿机器翻译系统的设计与实现等。论文介绍了汉阿双语语料库的建设方法,讨论了汉阿双语语料库中段落和句子对齐技术;提出了一种基于数字信息的分段对齐方法,并把它和基于回车符分段对齐方法相结合,形成了一种多层次分段对齐方法,提高了句子对齐的正确率。接着,论文介绍了基于实例的汉阿机器翻译系统的标注集和标注规则,以及对齐的方法和对齐关系的表示。系统使用基于可扩展标记语言(XML)的文档作为双语对齐树库的存储结构和表示方法。另外论文还给出了基于实例机器翻译系统的翻译算法。最后,设计并实现了一个基于实例的汉阿机器翻译系统。给出了对该系统翻译性能进行测试的结果,并分析了该系统的优缺点以及系统中存在的不足。测试结果表明,实现的系统达到了设计要求,提高了汉阿语言机器翻译系统的准确率,在例句库中有与待译语句相似例句时,往往能获得较好的翻译结果。
其他文献
信息隐藏是一门通过迷惑性的手段在无害的载体数据中嵌入秘密信息的科学与艺术。它要求嵌入过程对载体造成的失真是不可感知的。信息隐藏既是一门古老的技术,也是一门年轻的
无线传感器网络通常部署在恶劣或特殊的灾害环境中,如地震、水灾、火灾等,用于检测和采集环境中的数据。然而在这类场景下,网络中的感知节点往往会变得异常脆弱,严重影响到网络中
大众多核化的今天,多核处理器在人们的日常生活中随处可见。多核处理器就是在一个处理器上集成两个或多个运算核心,在并行性能提升的情况下,相对于单核它能够以更低的频率处理更
随着计算机软件、硬件的迅猛发展,产生了大量的图像或视频等数据,如何有效快速地对这些数据进行分析是当前计算机视觉与模式识别领域中的重点研究问题。近年来,基于图像集合
浏览器扩展可以为浏览器带来新的特性,而浏览器扩展机制允许用户利用第三方扩展为浏览器添加新的个性化功能,从而提升浏览器的性能和改变浏览器外观。然而,扩展机制的引入也同时
随着信息技术和计算机网络的发展,计算机对多媒体信息的理解也随着多媒体信息的爆炸性增长而发展的越来越深入。图片匹配是计算机视觉领域的一个基本问题,同时也是图片检索、模
如何提高大规模柔体碰撞检测的执行效率一直是计算机图形学领域的技术难点之一。传统的主流算法是通过选定一种或者多种包围盒(BV),构建包围盒层次结构(BVHs),将碰撞物体之间的碰撞
上世纪八十年代以来,互联网及其技术得到了迅猛的发展,人们从那时开始便进入到了一个称之为“信息爆炸”的时代。互联网的出现和发展不仅使得信息的采集、传输的规模和产生的速
随着信息时代的高速发展,使得二维条码在多个领域内广泛的被应用,但在复杂环境情况下,对所拍摄的二维条码进行解码会受外界条件影响,造成拍摄的条码图像退化,不利于二维条码信息
随着全球信息化的高速发展,计算机网络已经成为了一种不可或缺的信息知识来源,但随之而来的,是网络信息的无限增长。这种无限制的增长带来的是信息资源供给量远远大于资源的需求