论文部分内容阅读
蒙古族历史与文化源远流长,蒙古族的语言文字是蒙古族社会交际的工具。在当今信息化、全球化大背景下,蒙古语言文字的信息化对促进蒙古语言文字的学习、使用、研究和发展具有重要意义。蒙古文词切分是蒙古文词法分析、机器翻译、信息检索、文本分类、篇章处理等众多工作的基础和前提。由于历史、地域、文化等诸多原因,导致多种蒙古文编码共存,从而使得大量信息资源无法共享。蒙古文国际标准编码的问世结束了原来的多种蒙古文编码在应用中各自为政的历史,但由于国际标准编码为基础的研究才刚刚起步,大量的基础性的工作急需启动和研究,因此,本文围绕蒙古文切词问题,开展了以下工作:首先,本研究整理和校对了110万词的国际标准编码的蒙古文语料及文档资料库,这些资料可作为蒙古文信息处理后续工作的基础性资料。其次,深入研究了蒙古文构词法的特点,并提出考虑了语境关系和词内各成分高耦合度的词切分模型。同时深入研究了蒙古文构词法的特点及蒙古文语境关系,并提出了相应的机器学习方法以提高系统切分蒙古文词的精度和速度。此外,对基于国际标准编码的蒙古文词切分模型进行了分析和比较研究,提出了15种蒙古文词切分方法的评价方法和有效性计量公式。另外,给出了基于国际标准编码的蒙古文词切分系统的设计方法和整体框架。最后,完成了基于国际标准编码的蒙古文词切分软件系统和结果分析。基于蒙古文国际标准编码的蒙古文词切分系统不仅把蒙古文信息处理工作引入到国际标准编码为基础的研究领域,同时也为蒙古文信息处理工作提供了标准化的蒙古文资源,因此,本文的工作对促进蒙古文信息化工作具有一定的意义。