浅析蒙古文电子文档中的文本错误

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:litianjin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:蒙古文电子文档中普遍存在文本错误,主要有非词错误、真词错误、形对码错错误、句法语义错误等。其中,尤以形对码错错误最为普遍,且难以人为判断对错,只能由计算机程序自动校对。梳理文本错误是做蒙古文自动校对工作的基础和依据,其重要性不言而喻。本文在梳理了蒙古文电子文档中文本错误类型的基础上,列出了错误产生的相应原因及解决方案。
  关键词:蒙古文;文本错误;自动校对
  中图分类号:TP391 文献标识码:A
  文章编号:1009-3044(2019)11-0211-03
  Abstract: There are common text errors in Mongolian electronic documents, mainly including non-word errors, true word errors, pronunciation non-word errors, and syntactic and semantic errors. Among them, especially the pronunciation of non-word errors is the most common, and it is difficult to judge right or wrong manually, and can only be automatically proofread by a computer program. To sort out the text errors is the basis and basis for the automatic text proofing work in Mongolia, and its importance is self-evident. Based on the text error types in Mongolian electronic documents, this paper lists the corresponding causes and solutions of errors.
  Key words: Mongolian; text error; automatic text proofing
  1 文本錯误类型
  由于蒙古文不同于英文的特点,蒙古文电子文档中除了有英文文档中出现的非词、真词、句法语义等错误以外,还有形对码错错误等普遍存在,且比较独特的错误。
  1.1 非词错误
  2.3 编码转换
  由于历史原因,以往有大量蒙古文电子文档都是基于字形编码或音形混合编码(如方正6.0 文档等)存储。这些电子文档转换为基于语音的国际编码时,因为只能达到字形上的一致而导致文本错误。例如,上述单词“”的例子,在编码转换时也存在同样的问题。在将这类同形音异单词转换为基于语音的国际编码时,转换软件如果没有相当好的上下文分析功能,则很难完成转换到正确编码的任务。
  3 文本错误解决方案
  3.1 自动校对软件
  使用自动校对软件处理非词错误相对简单,有比较成熟的一些校对算法可以很好的胜任校对任务,但处理真词错误则比较困难。对于蒙古文电子文档中真词错误的处理,最新研究有内蒙古大学斯·劳格劳副教授的硕士生迎春在其硕士论文“蒙古文真词错误的侦测与纠错建议的生成研究”中给出的一个采用基于统计的方法和基于易混淆词词典的方法设计实现的蒙古文真词错误校对系统。该系统的召回率为82%,正确率为3.4%,纠错建议生成率为91%。对于形对码错错误的处理,郝莉在其文章“基于贝叶斯算法的蒙古文文本自动校对研究”中给出了一种使用贝叶斯算法校正由于读音混淆而引起的错误(读音非词)的方法,其拼写纠错率可达89%以上。廉冰在其论文“基于有限状态自动机的蒙古文同形词校对方法的研究”(该文中的同形词错误的概念与本文中的读音非词错误的概念相同)中也给出了一种读音非词的校对方法,平均准确率达到了91.5%,平均召回率为84.9%。
  3.2 输入法校对功能
  通过输入法自带的校对功能,可以解决文档中的非词错误。例如,对正在编辑的文档,通过输入法自带的校对功能,在输入的同时提示用户,使其进行正确录入。目前,主流的蒙古文输入法有两种,一个是蒙科立2016输入法,另一个是德力海蒙古文输入法2016-教育版。这两种输入法都具备一定的非词提醒功能,前者是用红色显示提醒用户录入的是非词,后者是用黑色显示提醒用户录入的是非词。输入法自带的校对功能不能处理真词错误。
  使用德力海蒙古文输入法2016-教育版输入读音非词错误编码时,会自动处理错误,将错误编码转换成正确编码。
  3.3 人工结合校对软件
  3.4 培养使用者正确录入习惯
  蒙古文文档中,读音非词错误主要是由于使用者没有养成正确录入习惯,只求字形正确而导致。所以通过培养使用者正确录入习惯,从而避开导致读音非词类的形对码错错误的起因是一种较好的从源头解决问题的方案。
  4 总结
  蒙古文电子文档中普遍存在文本错误,主要有非词错误、真词错误、形对码错错误、句法语义错误等。分析梳理这些文本错误及其产生的原因,对蒙古文文本自动校对工作有重要的意义,是文本自动校对工作的基础和依据。目前,对非词错误的处理相对成熟,有较多的处理算法和模型;解决真词错误方面的研究相对薄弱,缺乏实用算法和方案;对形对码错错误处理的研究较广泛,但主要集中在读音非词的校正上,而同形词替代引起的错误有待更进一步研究。
  参考文献:
  [1] 张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006(6):8-12.
  [2] 斯·劳格劳.基于不确定有限自动机的蒙古文校对算法[J].中文信息学报,2009,23(6):110-115.
  [3] 迎春.蒙古文真词错误的侦测与纠错建议的生成研究[D].呼和浩特:内蒙古大学,2017.
  [4] 包敏娜.《蒙古文印刷体扫描识别系统》(recog1.0版)自动校正算法研究[D].呼和浩特:内蒙古大学,2007.
  [5] 斯·劳格劳.蒙古文编码转换通用算法研究[J].内蒙古大学学报(哲学社会科学版),2009,41(2):133-136.
  [6] 郝莉,敖登巴拉,巩政,等.基于贝叶斯算法的蒙古文文本自动校对研究[J].内蒙古大学学报(自然科学版),2010,41(4):440-442.
  [7] 骆卫华,罗振声,宫小瑾.中文文本自动校对技术的研究[J].计算机研究与发展,2004,41(1):244-249.
  [8] 包乌格德勒,李娟.蒙古文文本自动校对研究综述[J].电脑知识与技术,2016,12(35):227-229.
  [9] 廉冰.基于有限状态自动机的蒙古文同形词校对方法的研究[D].内蒙古大学,2014.
  【通联编辑:梁书】
其他文献
摘 要 紫砂雕塑是富有思想情感的艺术,历代艺人都对此做过深入的探索和尝试,取得了不朽的艺术成就。作为宜兴陶艺的重要分支,它和紫砂壶艺一样,也经历了孕育发展、突破创新的漫长过程。本文以作品“天机”为例,从工艺特色和文化内涵两方面阐述紫砂雕塑的无穷魅力。  关键词 紫砂雕塑;刘海戏金蟾;道教文化   宜兴紫砂陶艺历史悠久,门类众多,随着当代社会的发展和人们审美眼光的多样化,紫砂陶艺日益完善,衍生出多种
新课程理念下的单元备课是从单元的角度对教学目标、内容和策略等进行全面分析的备课方式,它既包括了对教材教法宏观上的把握,又包括了微观上对各课时的具体分析,同时还包括对单
时光荏苒,转眼秋已过,冬又来。一年前的今天,我正和来自八闽大地的19位同行在千里外的彭州,践行自己的支教承诺。如今,结束了那段征程的我们,每每翻到家中电脑里珍存的支教相册和日
摘 要 紫砂作为一门古老的艺术形式,传统与创新之间的复杂问题层出不穷。紫砂壶既延续着传统工艺的特色,又富有艺术创新的生命力,两者在相辅相成的推进中,共同构成紫砂工艺的繁荣与发展。紫砂壶艺在继承的基础上创新,强调的是紫砂作品独特的视觉效果,这款紫砂花货“顶天立地壶”就是继承与创新相结合的典范之作。  关键词 紫砂;花货;顶天立地壶  对紫砂壶传统价值的认识,实际上就是对艺术本质的一种深层理解。对于美
【正】 今年以来,国民经济的运行情况总体是好的。上半年国内生产总值比去年同期增长,工业产值保持了平稳快速增长势头。夏粮总产在面积减少、灾害较多的情况下,略低于去年;
中药治疗糖尿病周围神经病变疗效肯定,具有多途径、多靶点等整体治疗优势。本文从多元醇途径、蛋白非酶糖基化产物的生成、血流动力学与血管因素、氧化应激、蛋白激酶C的激活
紫砂壶兼具实用与观赏功能,这是由其得天独厚的材质、独特的制作技艺及丰富的造型与装饰方法所决定的。在历代紫砂艺人的努力下,紫砂壶造型与装饰技艺更是形成了完整的艺术体
王春燕老师执教的《猴王出世》落选第七届全国青年教师阅读教学观摩大赛特等奖,引发热议。对王老师的教学及落选,我有些话想说:
传统班主任培训常游移于理论和实践二元对立的两极之间:一种倾向是迷恋理论的宏大叙事,不屑于班主任工作的实践情境,培训者倡导的教育理论大多只停留在教师理解的表层,成为“口头
第一,要懂得如何识别负性情感。懂得识别负性情感是情感教育能够关注学生负性情感发展的前提条件。识别负性情感一般要经过两个步骤:一是从学生的身体状态与行为举动判断出学生