规则与统计相结合的蒙古文编码转换的研究与实现

来源 :内蒙古大学 | 被引量 : 7次 | 上传用户:baimeng1111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和网络技术的飞速发展,蒙古文信息处理的工作也取得了很大的进步。但是由于蒙古文国际标准编码出台的相对滞后,目前市场上各种软件厂商采取自己的编码标准,使得各种蒙古文资料、网站之间不能兼容,信息不能共享,从而严重影响了蒙古文信息处理工作的发展。目前大多数蒙古文资料和网站仍然是采用了形码作为蒙古文的编码。本文希望能够实现目前比较常见的智能、方正、蒙科立等蒙古文形码编码系统到国际标准编码的转换。为了实现各种形码编码到国际标准编码的统一转换,本课题采用蒙古文字符“最小字素表示法”为中间编码,将这类编码转换成蒙古文国际标准编码。由于整个编码转换的过程是从形码到音码的转换,如何解决同形异音字符的问题就成了本文要解决的难点问题。本课题主要进行的工作分为两个部分:首先制定各种蒙古文形码到最小字素编码之间的规则转换表,根据规则表将各种形码统一转换到最小字素编码;其次,分别采用基于编码规则表对应的方法、基于蒙古文正字法词典对照的方法、基于统计语言模型的方法实现最小字素编码到国际标准编码的转换,并综合运用以上方法以提高转换正确率,并基本达到了预期效果。
其他文献
目前,计算机在航空、军事等关键领域已广泛应用。在这些领域中,计算机系统可靠稳定的运行起着非常关键的作用。任何计算机系统受电磁脉冲的干扰都会产生一些故障,这些故障可
文本是一种重要的信息载体,其数量随着互联网的不断发展极速膨胀。文本聚类作为一种无监督的机器学习方法,已成为对文本信息进行有效的组织、摘要和导航的重要手段,为越来越
在当今机器人技术领域,群机器人通过个体间的交互涌现出的群体智能表现出越来越大的优势,可以完成单一机器人和多机器人无法完成的复杂任务,因此有关群体机器人的研究日益得
作为信息系统核心的数据库管理系统,保存着大量敏感信息。需要采取有效措施防止非法用户的访问。仅有自主访问控制,不能控制信息在不同安全级别的主体间传播。强制访问控制通
无线传感器网络的资源很有限,却集成了监测、控制以及无线通信等多种功能。因此,无线传感器网络资源的节省显得尤为重要。网络编码理论的提出,为提高网络性能、节省网络资源
随着互联网(Internet)近几年来的飞速发展,互联网上提供的信息也呈现爆炸式的增长态势,面对Web信息以几何级数不断增长的情况,如何能够快速获取对用户更有价值的、更有质量的信息
P2P已经成为近年来的研究热点,它具有可扩展性,容错性等特点,在P2P环境下进行资源定位是P2P研究的核心问题,目前P2P已经应用于很多领域,但如何在大规模的P2P网络中进行可扩展
随着计算机技术和网络通信技术的迅猛发展,视频业务的普及已成为不可阻挡的潮流。在这股浪潮中,仅对视频传输协议进行监测的业务已不能满足市场的需求,而对视频质量进行监测
无线传感器网络的飞速发展产生了一系列新的应用,同时也带来了技术上的新需求和新挑战。传感器网络灵活多变、自组织等特色奠定了独特而广泛的应用背景。由于传感器网络中的
RFID(无线射频识别)技术具有广泛的应用前景。如何从大量的、语义隐含的RFID原始数据中,实时监测出具有高级语义的复杂事件,为企业决策和管理提供数据支持,是当前研究的热点