论文部分内容阅读
随着Internet及其相关技术的迅速发展,网络上汇集了大量的信息资源,如何有效地利用这些资源,一直备受学者的关注。目前广泛使用的处理Web信息的方法是搜索引擎,但这种基于关键字的搜索方法存在着搜索效率、差全率和差准率低的问题。将数据挖掘的思想和方法应用于Web环境下,从Web文档和Web活动中发现感兴趣的、潜在的、有用的模式和隐藏的信息,可以很好地解决搜索引擎所存在的问题。Web文本分类是Web挖掘的一个重要研究方向,它是在通过经验数据训练得到的分类体系下,根据网页的文本内容自动判别网页类别的过程,它可以用来缩小用户搜索信息的范围,使用户可以快速准确地获取所需的信息。支持向量机是一种高效的分类识别方法,它是建立在结构风险最小化原则以及VC理论基础上的一种小样本统计学习理论,具有较强的学习泛化能力和良好的分类性能。但当它所处理的数据量较大时,会导致处理速度慢、训练时间过长等缺点,影响分类性能。为此引入粗糙集的方法,利用其的属性约简方法对大数据量进行处理,同时消除冗余信息,减少支持向量机的训练数据维数,提高效率。本文主要研究了基于粗糙集与支持向量机相结合的Web文本分类技术,主要的研究成果如下:在深入研究文本分类技术、支持向量机理论及粗糙集理论的基础上,将粗糙集与支持向量机相结合应用于Web文本分类,并给出分类系统的框架,该系统根据词条在文档中的位置对TF—IDF权重函数进行改进;利用粗糙集进行属性约简,约简方法采用一种改进的广义信息表求近似最小属性约简方法,减少信息表达的特征数量;进而提出一种综合考虑粗糙集属性约简以及测试的文本数量,结合多项式核函数及径向基核函数的组合核函数,采用基于二叉树的多类分类方法,利用支持向量机分类器进行训练和预测。通过实验证明该系统有效地提高了分类器的分类性能及效率。