基于粗糙集与支持向量机的Web文本分类

来源 :漳州师范学院学报:自然科学版 | 被引量 : 0次 | 上传用户:kfyddp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet及其相关技术的迅速发展,网络上汇集了大量的信息资源,如何有效地利用这些资源,一直备受学者的关注。目前广泛使用的处理Web信息的方法是搜索引擎,但这种基于关键字的搜索方法存在着搜索效率、差全率和差准率低的问题。将数据挖掘的思想和方法应用于Web环境下,从Web文档和Web活动中发现感兴趣的、潜在的、有用的模式和隐藏的信息,可以很好地解决搜索引擎所存在的问题。Web文本分类是Web挖掘的一个重要研究方向,它是在通过经验数据训练得到的分类体系下,根据网页的文本内容自动判别网页类别的过程,它可以用来缩小用户搜索信息的范围,使用户可以快速准确地获取所需的信息。支持向量机是一种高效的分类识别方法,它是建立在结构风险最小化原则以及VC理论基础上的一种小样本统计学习理论,具有较强的学习泛化能力和良好的分类性能。但当它所处理的数据量较大时,会导致处理速度慢、训练时间过长等缺点,影响分类性能。为此引入粗糙集的方法,利用其的属性约简方法对大数据量进行处理,同时消除冗余信息,减少支持向量机的训练数据维数,提高效率。本文主要研究了基于粗糙集与支持向量机相结合的Web文本分类技术,主要的研究成果如下:在深入研究文本分类技术、支持向量机理论及粗糙集理论的基础上,将粗糙集与支持向量机相结合应用于Web文本分类,并给出分类系统的框架,该系统根据词条在文档中的位置对TF—IDF权重函数进行改进;利用粗糙集进行属性约简,约简方法采用一种改进的广义信息表求近似最小属性约简方法,减少信息表达的特征数量;进而提出一种综合考虑粗糙集属性约简以及测试的文本数量,结合多项式核函数及径向基核函数的组合核函数,采用基于二叉树的多类分类方法,利用支持向量机分类器进行训练和预测。通过实验证明该系统有效地提高了分类器的分类性能及效率。
其他文献
基于硝酸(0.10mol/L)介质中,四溴合汞络阴离子([HgBr4]^2–)与Rhod S+(罗丹明S阳离子)作用所形成的[(Rhod S)2]^2+.[HgBr4]^2–离子缔合物比Rhod S^+.Br^–在聚酰胺素膜(PAM)固体基质上所
无证书密码体制(CL-PKC)是新近提出的一类新型公钥密码体制.它保持了基于身份的密码体制(ID-PKC)不需要使用公钥证书的优点,又较好地解决了基于身份的公钥体制所固有的密钥托管问
通过演示实验与仿真实验相结合可以使实验教学更加顺利的进行.改善学生在课堂学习中,因视角、位置的关系不能观察到教师的演示的实验现象.本系统设计,通过单摆演示实验将单摆
本文提出过冷核态池沸腾热传递的分形模型,根据加热表面活化点的分形分布得到了过冷核态池沸腾热流密度的表达式.从该模型中发现过冷流动沸腾热流密度是壁面过热度、流体的过冷
建立包含多种不可逆性的Miller热机循环模型,导出Miller热机的输出功和热机效率的表达式,通过数值计算获得了循环的一些重要的性能特性曲线,得到了循环的一些重要参数的优化判据