论文部分内容阅读
蒙古文同形词有同形同音和同形不同音之别。同形同音词方面,已经有《面向信息处理的蒙古语名—动兼类同形词词类自动识别规则》和《面向信息处理的蒙文同类同音同形词自动识别研究》等研究成果。到目前为止,还没发现面向信息处理的蒙古文同形不同音词的专门研究,在500万词级《现代蒙古语文数据库》中还有大量的未经处理的同形不同音词。所以本文将以同形不同音—即同形异音词作为研究对象。 在蒙古文编码国际标准产生之前,我国境内出现的各种蒙古文编码都没能处理好蒙古文同形字母的问题。内蒙古大学蒙古学学院在建立500万词级《现代蒙古语文数据库》时,曾经采取从方正蒙古文编码文本到ASCII文本的转写措施,为语料库增添了许多内容。当时运行的转写软件,对文本中的同形异音词用“+”号作了简单的标记,以待后续处理。本文针对这些带“+”号的同形异音词,选取其中出现频率较高的(在100词次以上)140个词,根据它们在100万词级《现代蒙古语文数据库》中与其他词语的搭配情况,给出读音识别条件。对122个文件进行计算机处理的结果,自动识别的正确率达到99.01%。 全文由导言、第一章、第二章、第三章和附录组成。 导言部分,概述了蒙古文同形异音词的读音识别研究的意义、方法和步骤、研究基础以及国内外相关领域的研究现状,说明所用语料以及标记等。 第一章,说明本文要处理的同形异音词的来源。论述处理方法、过程、技术难点和重点等。 第二章,对蒙古文同形异音词读音识别条件中的标记和语料做了说明,给出了具体的读音识别条件。 第三章是结语。这里给出了测试试验结果分析,对本题目的学术价值和实用价值做了总结,并提出了进一步改进的思路。 附录部分是有关本研究的一些样例及参考文献。