基于规则和统计的西里尔与传统蒙古文相互转换方法研究

来源 :内蒙古大学 | 被引量 : 7次 | 上传用户:vvv_vvv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蒙古语属于阿尔泰语系蒙古语族,是一种跨多国、多地区的语言,使用者分布在中国、蒙古国和俄罗斯等国家,中国和蒙古国使用的蒙古语言文字是“语同文不同”,现时蒙古国主要使用西里尔字母(基立尔字母)书写蒙古语,称为“西里尔蒙古文”(也称为新蒙古文),而中国则仍以传统蒙古语字母书写,称为“传统蒙古文”(也称为旧蒙古文)。随着中国和蒙古国两国之间的文化、教育和经济合作与交流不断深入,西里尔蒙古文与传统蒙古文的相互转换工作就变得极其重要。西里尔蒙古文与传统蒙古文的相互转换(Cyrillic Mongolian and Traditional Mongolian Conversion, CMTMC)工作不仅给两国同胞的语言交流带来更多的便利,而且对两国的科学、文化和教育发展同样具有重要意义。本文将基于规则方法与基于统计模型方法的优点相结合,研究了西里尔蒙古文与传统蒙古文的相互转换方法,本文首先采用基于规则的方法对蒙古文集内词进行转换,其次对集外词采用基于联合序列模型的方法进行转换,最后采用N-gram语言模型解决了西里尔蒙古文与传统蒙古文相互转换中一对多的问题。实验结果表明,西里尔蒙古文到传统蒙古文(Cyrillic Mongolian To Traditional Mongolian, C2T)单词转换错误率为4.12%,传统蒙古文到西里尔蒙古文:(Traditional Mongolian To Cyrillic Mongolian, T2C)单词转换错误率为9.26%,均获得了较好的转换效果。
其他文献
基于无线传感器网络的目标跟踪是通过无线传感器网络的传感器节点间对目标的协作定位,来掌握目标的位置、速度、移动轨迹等信息。它是无线传感器网络的一项基本功能,也是无线
随着网络应用的多元化发展,直接连接到机器上的硬盘系统已经不能满足海量数据存储的需求了,于是NAS和SAN分别出现来解决海量数据存储的情况的,首先NAS的应用主要是针对大型数
随着平板电脑、智能手机等具备无线通信能力的便携式设备的普及,移动容迟网络(Mobile Delay Tolerant Network,简称MDTN)得到学者们的广泛关注。利用上述便携式设备进行自由
Voice over IP (VoIP)的应用日益广泛,但同时VoIP也引入了很多安全问题。以SIP协议为例,例如Bye/Cancel攻击,通过截获双方通信所发送的报文,然后伪造BYE或CANCEL报文并发送,
无线局域网以其频带免费、组网灵活、不受地形限制、易于迁移等优点,引起了人们越来越多的关注。在众多的无线网络标准中,802.11系列逐步确立了主流地位。但是在无线局域网给
无线传感器网络集成了传感器、嵌入式、网络和无线通信四大技术,在军事领域和民用领域有着巨大应用潜力,受到越来越多的重视和研究。然而,其不同于传统有线网络和现有的Ad-Ho
Web服务为网络服务提供了统一的接口和调用模式,而服务组合的目标是在SOA的架构内实现对已有服务的重用、生成新服务,它将是Web服务技术继续发展的技术动力和研究热点,目前对
基于ARM的嵌入式Linux系统以其强大的功能而倍受关注,目前在消费电子、工业控制等众多领域得到了广泛的应用。本文以较为成熟的ARM体系结构为硬件平台,为解决视频采集传输中
随着计算机技术和网络技术的发展,在网络环境下的数据库应用也越来越多,迫切需要为数据库提供版权保护。人们想到了利用数字水印技术来解决数据库的版权保护问题。由于数据库
XML(eXtensible Markup Language)即可扩展标记语言,能有效的表达各种数据和信息,使各种应用协同工作,被广泛应用在计算机科学的各个领域,特别是高速发展的互联网领域,XML已