论文部分内容阅读
随着互联网的快速发展,网络信息以惊人的速度激增,处在一个“信息爆炸”时代,如何快速准确地获取我们所需要的信息的需求使得文本分类已成为一个非常重要的课题,同时,文本分类技术也是信息检索、自然语言处理领域的基础技术,使得更多专家投入到文本分类的研究,应用前景很广泛。目前有关使用半监督学习进行文本分类的研究已经非常深入,其中co-training是半监督学习非常典型的一种,并得到了广泛的应用。但常见的co-training方法应用于文本分类中,在构建双视图时,仅仅根据词形(词根)而忽略了语义(概念)对分类的重要性。本文在co-training框架基础上,融入语义对分类的影响,提出通过概念与词根双特征互助的方法来提高分类模型的效果。本文首先简单介绍了文本分类的研究背景和相关技术,接着详细介绍了文本算法思想的需要的两大基础,co-training框架和Word Net文本库,并在co-training框架的基础上结合Word Net本体库提出了基于概念与词根双特征互助的文本分类算法。相比于其他基于co-training的分类算法,本文从概念与词根两个角度去构建双视图,而非仅从文本的内容提取词根构建双视图,考虑了语义对分类的影响。其中,基于概念的分类与基于词根的分类方法又不同,词根之间的联系可以忽略,而Word Net本体库中的概念之间是有联系,故在进行概念的文本分类时引入了语义相似度的计算,并运用于概念分类用到的计算公式,最后给出了基于概念与词根文本分类算法的过程描述。本文给出了两组对比性实验,验证与普通的分类算法相比,基于概念与词根双特征互助的分类模型有效性和r参数(Word Net本体库中概念节点之间的距离)不同选择对分类模型的影响。实验结果表明基于概念与词根双特征互助的新算法具有更高的准确率和召回率;参数的选择会影响分类器的性能,且r越大效果越差。