论文部分内容阅读
文本自动分类,是将非结构化的文本依据其内容指派到一个或多个预先定义的类别中去的一项技术,近10年来受到了人们越来越多的关注。这主要因为大量机器可读的电子文本的出现,迫切需要对文本进行有效地分类,以提高查找、阅读速度的结果。目前尽管已有许多技术和算法用于文本的自动分类,但是,对这些技术和算法本身效力的挖掘还远远不够,仍留有很大的改进空间。另外,还有新的分类方法尚待深入研究,特别是对于中文文本的自动分类,之前相关的研究工作相对较少,有名气的中文文本分类器更少。文本分类器对于学习算法和分类的结果都是至关重要的一步。在学习算法和分类系统能够处理文本之前,文本必须转换成一种适当的表示形式。这种表示形式要在一定程度上能够捕获文本本身的语义内容。依据前面的要求,可以把中文文本分类技术过程描述为:文本数据集的搜集,中文文本的分词,高维的原始特征空间的降维计算,分类器的选择,分类结果的评价等。本文所做工作如下:1、介绍了文本分类相关概念,对现有文本分类方法进行了介绍;2、为了从分词结果中获取对分类有用的信息,本文中使用不同的特征降维方法:互信息方法、相关系数法、文档频率法,及期望交叉熵法对分词结果进行降维处理,实验显示相关系数法对分类最为有效,期望交叉熵与互信息方法稍差,文档频率法效果最差;3、本文还通过实验,对使用交叉覆盖算法作为分类器与使用SVM方法作为分类器进行比较,通过比较可以看出,交叉覆盖算法作为分类器对中文文本进行分类,在适当的维数和特征降维法下,具有较好的分类效果;本文对中文文本分类进行了一些工作,但在本论文的基础上,还有需要改进和提高之处。因此,对中文文本分类的进一步研究工作可从如下三个方面展开:1、本文文本表示模型采用的是向量空间模型,在向量空间模型方面,结合计算语言学,使用概念空间代替词空间;没有考虑到汉语词义之间的影响:中文分词采用的是中国计算所的ICTCLAS的分词结果,以后可以进一步研究如何提高分词的精确度;2、对交叉覆盖算法进行改进,提高其分类正确率;3、目前的分类体系为平面体系,可以在层次分类体系中考虑文本分类系统,使分类由平面向三维空间发展,以便大幅度提高分类算法的准确率和加快分类的速度。