论文部分内容阅读
随着网络技术的飞速发展与普及,信息处理已经成为人们获取有用信息不可缺少的工具,而文本自动分类则是信息处理的重要研究方向。
当前的文本分类方法主要有基于概率的统计分类方法、基于机器学习的分类方法。无论采用哪一种分类方法,都要面对一个首要的问题:如何处理文本中分词处理后数量庞大的文本特征项。在文本分类中,文本特征向量通常高达几千甚至上万维,这给整个分类过程带来了相当庞大的计算量,不仅影响到文本分类的效能,而且在很大程度上影响着分类算法的应用推广。因此,进行有效的降维处理是非常重要的。
粗糙集理论是一种新的处理模糊和不确定知识的软计算工具。它能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律,近年来在机器学习、数据挖掘等多个领域得到广泛应用。
本文详细阐述了粗糙集中的不完备信息系统处理技术,并结合文本分类的特点,给出了一个基于粗糙集属性约简的文本分类解决方案,主要创新点如下:
1.采用概率统计方法,根据文本属性在不同文本、不同类别中的重要性与分布情况对其进行筛选和排序;
2.结合文本分类的特点,提出了适用于文本分类的一种量化容差关系和启发式的属性约简算法;
3.整个实验系统构建在数据库端,数据以表的形式、算法以存储过程的形式存储在服务器内,能轻易的扩展到网络与分布式协同计算方式。
本文从上面几点出发,构建了一个完整的网络文本自动分类系统。经过封闭式和开放式实验测试,表明系统能够较好地进行文档特征项的特征提取并且大幅度的降低了整个文本分类的时间代价。为粗糙集理论的实际应用与文本分类技术的进一步发展提供了一个好的研究样例。