基于简单实例的哈萨克语-汉语机器翻译系统研究与实现

来源 :新疆大学 | 被引量 : 0次 | 上传用户:qjunp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译(Machine Translation,简称 MT)是指借助计算机设备来完成自然语言翻译工作,例如:汉语翻译成哈萨克语或哈萨克语翻译成汉语。机器翻译有多种翻译方法和策略,但各方法都存在缺点和优点。其中基于实例(EBMT)的方法优点在于可以避免复杂的深层次的语法和语义分析,基于这种原因,本文使用了基于实例的方法。该方法对某个领域而言,容易实现具有翻译速度快,译文质量高,获取翻译知识简单的哈萨克语翻译系统。  本文首先介绍了哈萨克语/汉语翻译软件的设计和相关技术,实现了哈萨克语/汉语单方向文本翻译系统。  本文主要在几个方面做了探索:第一,描述了双语实例库建设过程,介绍了段落映射方法和实例句对齐方法,并设计了以数字和回车符为特点的段落对齐方法及句子长度和句子边界为特点的实例对齐方法,该方法在建设双语实例库中的应用减轻了人工对齐的负担和工作量。第二,为了提高实例搜索速度,本论文中设计了哈萨克语实例句词汇索引存储结构和索引生成工具,符合哈萨克语句子的相似度计算方法:相似片段重组研究。  本文对机器翻译理论方面做调查研究基础上设计了相应的哈汉翻译软件,并对此翻译软件性能做了小规模的实验,本软件运行效率与实例句相似度计算方法有直接的关系。从实验结果来分析看,对相似度高的句子来说可以获得高质量翻译结果;对其他句子来说翻译效率不是很明显,出现语法错误,语义不顺通等问题。
其他文献
随着智能体理论与技术的发展,多智能体系统在科学研究、互联网、生产控制、金融服务、企业管理等诸多领域中有了较广泛的应用,但在执行效率和效果上依然存在很大的提升空间,而面
图像自动标注隶属于计算机视觉、模式识别、信息检索以及机器学习等领域,在学术界和工业界均得到高度的关注,但是由于图像自动标注存在数据集的不平衡性,底层视觉特征与用户高层
随着经济的高速发展,交通运输业也得到了飞速发展,车辆数量越来越多,但是随之而来的交通问题也日益突出,这使得智能交通(Intelligent TransportationSystem,简称ITS)系统成为研究
当今社会随着信息产业的高速发展,信息系统中所储存的数据量越来越大,而人们逐渐从管理数据的单一需求,发展到想通过历史数据总结出所感兴趣的规则,来对未来的行为起到一定的
本文分析了著名的开源3D游戏引擎Irrlicht,通过阅读引擎源代码,剖析了该引擎的主要功能、逻辑结构及关键技术,掌握了其跨系统平台以及跨图形驱动器的实现方式,设计出一种适用于Wi
进化算法和群智能算法等元启发式算法是目前求解复杂计算问题的主要方法。烟花爆炸算法(也称烟花算法—Fireworks Algorithm,FWA)是一种模拟烟花爆炸过程的元启发式算法,它在求解
随着计算机网络技术的不断发展,以及互联网产业的异军突起,网络中的信息量呈爆炸式增长,数据的可靠性和安全性受到越来越广泛的关注。基于光纤通道技术的存储区域网络为存储
一般目标类识别和行为识别是当前计算机视觉界研究的热点问题。词袋模型为解决该类问题提供了一个基本框架。词袋模型涉及四个关键的因素:局部特征检测、局部特征描述、视觉
近年来,实时系统由于其响应及时,可靠性强的特点,已经广泛应用于像航空、军事,交通和工业等领域。然而,随着大规模集成电路工艺技术的不断发展,处理器上的功耗密度和能量消耗
三维人体动画技术在动漫游戏、影视特技、运动仿真和虚拟现实等领域占有重要地位,是计算机动画领域的一大研究热点。近些年,机器学习技术被广泛应用于三维人体运动合成,取得