论文部分内容阅读
信息技术和Internet的不断的发展,不仅带来了总量上的“信息过载”问题,而且还有结构性的“信息短缺”以及各种“信息陷阱”、“信息迷雾”等问题,使得获取特定信息的难度不断加大,因此,有学者提出知识工程的思想来专门研究如何有效地对知识进行处理。知识工程主要包括知识表示、知识获取以及知识管理三个基本课题,其中知识表示是知识工程的核心。研究发现,本体能够很好的表示领域知识,并且能够提供计算机能够理解的形式化语义信息,促进计算机之间的通信和互操作,让计算机模拟人脑的功能准确地、自动地对信息进行处理。本体自动扩充是当前本体研究的热点问题,所谓本体自动扩充是指自动地对语料进行处理,从中抽取出本体概念实例,在实例与本体概念之间建立关系,最终建立起本体种群。本体自动扩充研究中最关键的部分是本体实例的分类,即通过特定的分类算法计算实例与概念之间的相似度,一方面把识别出的本体实例填充到相应的本体概念当中去,另一方面尽可能多的识别出本体概念的实例,提高本体实例分类的准确率和召回率。目前,本体实例分类的研究主要通过借鉴人工智能、机器学习等领域的研究方法进行研究,所应用到的方法主要有两类,一类是基于规则的方法,这种方法通过构建实例识别、分类的规则来实现本体的自动扩充。另一种基于统计的方法,通过标注语料训练或自学习的方式建立统计模型,进而利用该模型抽取本体概念实例实现本体自动扩充。作为在人工智能、机器学习等领域的研究中广泛应用的算法之一——支持向量机算法,能够被用来解决本体实例的分类问题。支持向量机(SVM)是一种向量空间模型(VSM),它把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,通过计算向量之间的相似性实现实例的分类。本文提出了一种SVM算法的改进模型即Onto‐Bt‐SVM模型,它主要是针对SVM算法难以解决多类分类问题以及特征向量构造难度大两方面的问题进行改进。本文的改进策略主要体现在两个方面:第一,利用本体自身的概念结构和二叉树模型组织SVM多类分类器,使SVM算法适合解决本体实例的分类问题。第二,利用本体自身所蕴含的语义信息构造特征向量,选取分类效果更好的元素作为特征向量的维度。改进后的模型能够更好地处理有限样本数据的分类问题。本文设计了四组实验方案,实验结果表明,Onto‐Bt‐SVM模型分类的准确率和召回率都有大幅度的提高。