论文部分内容阅读
随着中文分词技术研究的不断深入,如何实现分词算法中语义信息的处理成为当今研究热点之一。本文结合特定领域的领域性以及语义网本体的结构特点,对基于词典的双向最大匹配算法进行改进,提出基于统计和语义信息的中文分词算法,并开发了中文分词系统对该算法进行验证,最后通过与NLPIR汉语分词系统的分词结果比较,实验表明在特定领域本文提出的算法比传统分词方法有效。针对以上内容,本文主要做了以下五方面工作:1.根据OWL标准构建一个平面几何领域本体。借助维基百科和语义相关度知识了解平面几何领域概念知识以及层次结构,从中抽取30个领域术语,运用领域本体中的四种基本关系完成对术语之间关系的半自动标注和校对,构建起语义相关的数据库,并完成对该领域本体的编辑管理。2.提出一种基于统计规则的歧义消解算法。考虑到歧义字段对切分精度的重大影响,在分析现有歧义处理方法的基础上,总结规律发现问题,提出五条统计规则,并根据统计规则设计实现一种针对交集型歧义的处理算法。3.提出一种基于语义信息的中文分词算法。该算法是对传统的基于词典的双向最大匹配算法进行改进,通过构建平面几何领域本体作为语义词典来代替传统的中文分词词典,将待切分文本经过预处理后与本体中的词条进行匹配,通过领域本体中术语之间的关联关系来实现机械分词对语义信息的处理,减少歧义字段,最终得到更准确的切分结果。4.设计并实现基于统计和语义信息的中文分词系统。该系统对本文提出的分词算法进行了实现,设计系统整体框架并具体阐述框架中每个模块的功能,最后结合提出的算法实现了预处理、语义分词以及歧义处理分词三个功能。5.对本文提出的分词算法进行验证。以平面几何题库作为实验语料,从平面几何5个大类中各随机抽取10份测试语料在开发的中文分词系统中进行测试,测试项目包括切分精度、歧义处理、未登录词识别以及系统响应时间等,将测试结果与NLPIR汉语分词系统的分词结果比较,表明在特定领域本文提出的算法比传统分词方法有效。