基于粗糙集与KNN的Web文本分类的研究

来源 :安徽理工大学学报·自然科学版 | 被引量 : 0次 | 上传用户:yuyuspecialshow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  (安徽理工大学经济与管理学院,安徽 淮南 232001)
  摘 要:为了从海量的信息资源库中快速、准确地进行分类并提 取出有用的信息,提出了一种基于粗糙集和KNN混合的Web文本分类模型。利用粗糙集的属性 约简理论降低了文本分类过程中的向量维数,使用一种基于分明矩阵的属性约简算法,特征 选择过程采用互信息量计算方法,并对该混合算法进行了实验,同时结合传统的KNN方法对 该混合算法进行比较,验证该算法的可行性。
  关键词:Web文本分类;粗糙集;KNN;属性约简
  中图分类号:TP399
  文献标识码:A
  文章编号:1672-1098(2008)04-0089-04
  
  
  收稿日期:2008-06-30
  作者简介:桂海霞(1978-),女,安徽桐城人,讲师,硕士,研究方向 为系统工程。Research of Web Text Classification Based on Rough Set and KNN
  GUI Hai-xia,MENG Xiang-rui
  (School of Economics and Management, Anhui University of Scienc e and Technology, Huainan Anhui 232001,China)
   Abstract: In order to quickly and precisely classify and search u seful information from huge information database, in the paper a kind of mixed m odel of web text classification based on rough set and KNN was introduced. By us ing the theory of attributes reduction of rough set, number of vector dimensions
  in text classification process was reduced. A kind of simplified algorithm for
  attributes reduction based on distinct matrix was used. In the process of featur e selection, method of mutual information was used. Experiments with the mixed m odel were conducted. The results compared with traditional KNN method show that
  the mixed algorithm is feasible.
  Key words:web text classification;rough set; K nearest ne ig hbor; attributes reduction
  目前,随着Internet 的日益发展和网上各类信息的迅猛增长,用户对散布在网络各处的文档的检索工作变得愈加 困难,这就对Web文档分类系统的研究与实现提出了更高的要求。Web文本自动分类通常指将 一篇文章指定至一个或几个预定义的文本类别中。现有的文本分类方法主要有支持向量机(S VM )、K最近邻(KNN)、决策树、线性最小二乘法估计(LLSF)和贝叶斯分类算法(Bayes)等。 不难发现在这些分类方法中普遍存在一个共同的问题:这些分类方法在训练和分类过程中, 不能很好的处理高维数据,过多和烦杂的计算量大大限制了分类方法的分类效率的提高。而 目前,在信息处理和文本分类领域得到广泛应用的粗糙集理论可以很好的解决这个问题。粗 糙集的约简理论能够大大缩减文本分类过程中的向量维数,从而降低了计算复杂度,提高了 分类效率。本文将介绍一种基于粗糙集和KNN混合的Web文本分类方法,并在实验的基础上验 证了该混合方法的可行性,取得满意的效果。
  1 粗糙集与KNN的Web文本分类法1.1 粗糙集概述粗糙集是用来研究不完整数据、不精确知识的表达、学习、归纳等方法。粗糙集[1] 理论的研究对象是一个由多值属性集合描述的对象集合——信息系统。对于每个对象及其 属性都有一个值作为其描述符号,对象、属性和描述符是表达决策问题的三个基本要素:这 种表达形式可以看成是一个二维表格,表格的行与对象相对应,列与对象的属性相对应。各 行包含了表示相应对象信息的描述符,还有关于各个对象的类别成员的信息。通常,关于对 象的可得到的信息不一定足以划分其成员类别,这种不精确性导致了对象间的不可分辨性。 在粗糙集理论中用等价类形成的上近似和下近似来描述集合的粗糙性。上近似和下近似的差 是一个边界集合,它包含了所有不能确切地判定是否属于给定类的对象。粗糙集理论的主要 特点在于它恰好反映了人们以不完全的信息或知识去处理一些不分明现象的常规性,依据观 察、度量到的某些不精确的结果而进行分类数据的能力。
  粗糙集方法可以解决重要的分类问题,去除冗余属性,进行属性的约简,还可以用决策规则 集合的形式表示最重要属性和特定分类之间的所有重要关系。本文将这一理论应用到文本分 类的训练阶段,用粗糙集的属性约简算法实现规则的提取,然后结合KNN分类方法对文本进 行分类。
  1.2 KNN分类算法简介最初的近邻法是由Cover和Hart于1968年提出的,直至现在仍是分类方法中最重要的方法之 一。直观地理解,K近邻,就是考察和待分类文本最相似的K篇文本,根据这K篇文本的类别 来判断待分类文本的类别值。相似值的判断可以使用欧拉距离,或是余弦相似度等。而最相 似的K篇文本按其和待分类文本的相似度高低对类别值予以加权平均,从而预测待分类文本 的类别值。在新文本的K个邻居中,依次计算每类的权重,计算公式如下
  p(xi[TX-],Cj)=∑[DD(X]di∈KNN[DD)]sim (x[TX-],di)y(ki,Cj)
  式中:x[TX-]为新文本的特征向量,sim (x[TX-],di)为相似度计算公式,而y(d i ,Cj)为类别属性函数,如果特征属于类Cj,那么函数值为l,否则为0。比较类的权重 ,将文本分到权重最大的那个类别中。
  在K近邻分类器中,一个重要的参数是K值的选择,K值选择过小,不能充分体现待分类文本 的特点,而如果K值选择过大,则一些和待分类文本实际上并不相似的文本亦被包含进来, 造成噪声增加而导致分类效果的降低。
  1.3 基于粗糙集与KNN的Web文本分类模型KNN分类算法具备简单易懂并容易实现的优点,但也存在一些问题,需要将所有样本存入计 算机中,每次决策都要计算识别样本与全部训练样本之间的距离进行比较。尤其是文本训练 集较大时,计算新文档时存储量和计算量都比较大,大大降低了分类算法和分类系统的效率 。
  鉴于粗糙集的约简理论能够可以有效的去掉信息系统中的冗余属性,大大缩减文本分类过程 中的向量维数,降低了计算复杂度,同时又不影响分类区分能力,从而提高了分类效率。本 文利用粗糙集的上述优点并结合KNN分类方法,提出了一种混合的Web文本分类模型[2 ],其分类过程和结构如图1所示。[FL)]图1 基于粗糙集和KNN的混合分类模型
  
  图1给出了基于粗糙集和KNN进行文本分类模型。整个建立模型的过程由基于粗糙集的预处理 和KNN分类两部分组成。经过特征选择和权重的离散化,就可以构造决策表,把粗糙集作为 预处理,对决策表进行属性约简,这种约简把冗余的属性从决策表中删去并且不损失任何有 效信息。然后该算法从前端转向后端处理,即从粗糙集转向KNN方法的训练与测试。分类模 型中粗糙集作为KNN方法的一个前端处理器,经过粗糙集的属性约简和冲突约简,进入KNN的 输入量会大大减小,这样相应减小了KNN分类过程中的计算量,节省了训练时间,并在不同 程度上避免了训练模型的过拟合现象,但分类性能并不会降低。
  1.4 基于粗糙集与KNN的Web文本分类过程(1) 文本预处理和分词 Internet上的大部分网页是HTML文档或XML文档,文本的预处理首 先要做的是,利用网页信息抽取模块将网页的内容,去掉跟文本挖掘无关的标记,例如HTML 中的Tag,去除禁用词、词根还原等,然后转换成统一格式的TXT文本存放在文件夹中以备后 续处理。
  经过上述的除去标记、禁用词等预处理操作后,就要对文本进行分词处理。文本分词主要有 三种方法:基于字符串匹配的方法、基于理解的方法和基于统计的方法。本文中采取了基于 统计的分词方法,这种分词方法利用了一种基于统计学的 N-Gram技术[3],根据相 邻字的共现频率自动提取特征,使文本数据分类实现了分类的领域无关性和时间无关性。它 无需任何词典支持,对输入文本所需的先验知识少。
  (2) 特征提取和权值离散化 训练文本和待分类文本经过分词并去除停用词和高频词后,表 示文本的向量空间和类别向量的维数也是相当大的,因此需要进行特征项的抽取。 特征提取[4]是文本分类系统中十分关键的问题,它可降低向量空间的维数,提高 系统的速度和精度,还可以防止过拟合。由于本文中采用了向量空间模型作为文本的表示方 式,因此特征提取方法就相应的采用了统计的方法,首先利用不同的方法对特征项进行评分 。对于待分类文本来说就是计算权重,通过一定的方法计算出权重然后选出分值较高的作为 特征构成文本的向量空间。常用的特征提取方法有:互信息、信息增益、期望交叉熵和文本 证据权等等,本文中采用了是互信息特征提取方法。互信息是统计学和信息论中一个重要的 概念,它表现了两个统计量间相互关联的程度,关联程度越高,互信息越大,反之亦然。特 征项与类别的互信息量可以用如下公式计算
  Txt(w)=∑[DD(X]i[DD)]p(ci)log[SX(]p(w|ci)[]p(ci)[SX)]
  式中:p(w|ci)为训练语料中特征项w出现在类别ci中的频率,p(ci)为ci类文 本在语料中出现的频率。为了避免特征项过多造成系统的过拟合现象,计算出所 有特征项的互信息量后,我们要将互信息量从大到小排序,然后选出分值较高的前K个作为 特征构成特征向量空间。
  特征提取具体步骤如下:
  Stepl:对于特征项集合中的每个词,计算词和类别的互信息量使用上述公式。
  Step2:对于该类中所有的词,依据计算出来的互信息量排序。
  Step3:抽取一定数量(K个)的词作为特征项,K值的具体值一般先采用初始值,然后可以根据 实验和统计结果确定最佳值。
  Step4:将每类中的所有的训练文本,根据抽取的特征项,表示成向量形式。
  计算了各个特征项的权重并提取了相应的特征向量以后,由于本文中要应用粗糙集理论,对 于连续的数据必须先进行离散化,也就是将各属性的取值区间划分为若干段,各段以不同的 离散值代表。在保持分类能力的情况下,划分区间越少越好。目前相关文献提出了很多种离 散化方法,有等距离划分法、等频率划分法和自适应离散化法等等,本文中采用了等距离划 分方法。(3) 构造决策表 粗糙集理论中用决策表来描述论域中的对象。它是一类特殊而重要的信息知识表达系统。在 此用决策表来表示分类知识:每类中的所有文本的集合作为论域,文本作为论域中的对象, 特征词的集合作为属性集,即把特征词作为属性,离散化之后的词语的权值作为属性的取值 ,若文档中没有某词,则该词在文档中属性值为0(见表1)。
  表1 决策表
  文本特
  征T1[]T2[]T3[]…[]Ti[]所属类别D1[]5[]4[]1[]…[]5[]C1[BHDWG2]D2[]0[]3[]7[]…[]2[]C2[BH]…[]…[]…[]…[]…[]…[]…[BH]Di[]…[]…[]…[]…[]…[]Ci其中Ti表示特征项,Ci是文本Di的类别表示,表中数字是离散 化后的特征权值。
  (4) 属性约简算法 属性约简是粗糙集理论研究的一个核心内容,它通过从属性集合中发现 部分必要的属性,使得这部分属性相对于所有属性有相同的分类能力。由Skowron A提出的 分明矩阵[5]可将求属性约简的问题转变为由合取范式到析取范式转化的问题,其 主要思想是利用逻辑运算使得约简后的属性集与每个非空的分明矩阵元素相交都不为空,从 而所有对象两两之间都有可以相互区分的属性。如果一个矩阵元素只包含单个属性,则称该 属性为核属性,它唯一能区分这个矩阵元素所对应的两个对象。核属性是不可约去的,可作 为最佳属性约简的起点,其它有用属性需从不含核属性的矩阵元素中得出。本文中的属性约 简算法就是基于分明矩阵进行属性约简的,同时结合具体研究问题,具体算法步骤描述如下 :
  Step1:对于训练文本集和测试文本集合中的每一个文本,计算其相应的分明矩阵M ;
  Step2:对于所有Cij=1的矩阵元素,将其所包含的属性组成核属性集合C0 ;
  Step3:将所有不含核属性的非空矩阵元素Cij (矩阵元素Cij是属性的析取 式)建立合取表达式,即L=∧[DD(X]Cij≠φ,c0∩cij=φ[DD)]cij;
  Step4:将此合取式L转化为析取式:L′=∨[DD(X]i[DD)]Li其中每个Li所包含的属 性与C0一起组成一个属性约简结果。
  可以看出,这种约简方法是根据论域中对象的属性取值来得到的,不依赖于人们的任何先验 知识,因此它更具有客观性。
  2 实验测试与分析
  实验数据来源于从新浪网站上选取的300篇文档,手工分为数码、手机、房产、政治、财经5 个类别。我们将其中的240篇文档构成训练文档集合,另外的60篇作为测试文本集合。采用 通用的召回率和准确率对系统性能进行测试,其中召回率是被判定为相关的相关文本占全部 相关文本的比率;准确率是被判定为相关的文本中真正相关的文本所占的比率。准确率和召 回率反映了分类质量的两个不同方面,两者必须综合考虑,不可偏废,所以还使用两者综合 考虑的评估指标:F1测试值,其数学公式为
  F1指数=准确率×召回率×2准确率+召回率
  同时为了跟其他分类方法之间进行比较,本文还选用了KNN文本分类法一同进行分类实验, 通过实验得到了如下数据(见表2)。
  表2 实验数据表
  分类方法分类质量数码手机房产政治财经KNN法准确率(P)0.9150.9260.9180.7460.917召回率(R)0.8700.8420.9630.7560.885F1测试值0.8920.8820.9400.7510.901粗糙集与
  KNN 混合法准确率(P)[]0.923[]0.936[]0.925[]0.755[]0.931[BH]召回率(R)[]0.895[]0.851[]0.970[]0.778[]0.912F1测试值0.9080.8910.9470.7660.921
  从表2可以看出,与传统的KNN分类法的结果比较可得,基于粗糙集和KNN的混合分类方法的 准确率和召回率明显得到提高。
  3 结束语
  本文提出了一种基于粗糙集和KNN的混合文本分类模型,对每个关键步骤进行了详细的介绍 ,其中,分词部分使用了基于统计的分词方法;特征提取部分采用了互信息量计算方法,给 出了具体的算法步骤;在决策表的属性约简步骤中,提出了一种基于分明矩阵的属性约简算 法;最后我们对该混合算法进行了实验,并结合传统的KNN方法对混合算法进行了比较。实 验证明,基于粗糙集和KNN 的混合分类方法是一种性能比较优秀的分类方法,能够明显提高 分类的准确率和召回率,很好地满足了大量的专业网站的 Web知识发现的需求,具有应用可 行性。
  参考文献:
  [1] 李波,李新军.一种基于粗糙集和支持向量机的混合分类算法[J].计算机应 用,2004,24(3):42-46.
  [2] 孙丽华,张积东,李静梅.一种改进的KNN方法及其在文本分类中的应 用[J].应用科技,2005,32(2):25-27.
  [3] 胡运发.基于N-Gram 信息的中文文档分类研究[J].中文信息学报,2007,1 5(1):124-128.
  [4] SUN LI HUA,ZHANG JI DONG,LI JING MEI.An improved k-nearest neighbo r system and its application to Text classification[J].Applied Science and Te chnology.2002,29(2):25-27.
  [5] 徐风亚,罗振声.文本自动分类中特 征权重算法的改进研究[J].计算机工程与应用,2005,41(1):75-77.
  (责任编辑:李 丽)
其他文献
(安徽理工大学理学院,安徽淮南232001)  摘要: 联系现实中保险公司的经营行为,建立一类理赔额受限的带干扰Poisson风险模型, 运用鞅论的方法,分析再保险方式对该风险模型资金盈余首次到达0时刻的影响,得到它的 矩母函数和数学期望,并通过与不采用再保险方式的带Poisson风险模型资金盈余首次到达0 的期望时间的比较,发现再保险方式是分散保险公司经营风险的非常有效的一种途径。  关键词:鞅
期刊
(淮北煤炭师范学院物理与电子信息学院,安徽 淮北 235000)  摘 要: 采用第一性原理的平面波赝势方法和广义梯度近似,研究了闪锌矿ZnS掺杂Cu前后的 电子结构和光学性质。通过对掺杂前后电子能带结构,态密度以及分态密度的计算和比较,发 现引入杂质Cu后,在价带顶Cu3d态与S3p态发生p-d排斥,造成价带顶向高能端移动;在导 带 底Zn4s与Cu3p相互重叠,发生杂化,引起导带向低能端偏移,
期刊
摘 要:用表面张力法研究了288 K时6-OTs-β-CD与十六烷基三甲基氯化铵(CTAC)形成的超分子包络物及CTAC的表观临界胶束浓度(CMC*)与6-OTs-β-CD浓度的关系。研究发现,CTAC与6-OTs-β-CD可形成包结比为2∶1的超分子包络物,包络物表观稳定常数为2.0×103 L/mol。表面活性剂的表观临界胶束浓度(CMC*)与环糊精的浓度呈较好的线性关系。  关键词:β-环糊
期刊
(1. 安徽理工大学化学工程学院,安徽淮南232001;2. 南京工业大学制药与生命科学 学院,江苏南京210009)   摘要: 采用微波辐射加热方法制备负载型TiO2/γ-Al2O3光催化剂,采用X-射线衍射(XRD) 、激光拉曼光谱(LRS)与UV-Vis漫反射谱(UV-Vis DRS)等手段对催化剂的结构进行表征 ,并以苯酚光催化降解反应对催化剂活性进行评价。结果表明,微波辐射加热方法促进
期刊
(1. 安徽理工大学材料科学与工程学院,安徽淮南232001;2. 中国矿 业大学化工学院,江苏徐州221008)    摘要: 为了更全面地研究新鲜生物质的热解气化过程,对二种新鲜生物质不同热解气化条 件下的半焦特性进行了研究。采用傅立叶变换红外光谱(FTIR)法分别考察了温度和水分对 生物质热解气化半焦特性的影响。结果表明,生物质在200 [KG-*1/5]℃热解后各种基团量 增大,此后 随着
期刊
(安徽理工大学化学工程学院,安徽 淮南 232001)  摘 要:利用X-射线衍射仪(XRD)和扫描电镜(SEM)观察等现 代测试方法,分析添加MgO助熔剂的煤灰中矿物在高温熔融过程中的行为以及微观形貌,并 讨论了MgO的助熔机理。结果表明:高温弱还原性气氛下,原煤灰中的主要矿物为莫来石, 它的存在使煤灰熔点较高。添加MgO助熔剂后,煤灰中存在的晶体矿物为堇青石、镁橄榄石 及假蓝宝石,它们之间发生
期刊
(安徽理工大学机械工程学院,安徽淮南232001)  摘要: 针对普通齿轮泵存在较大的不平衡径向力等问题,介绍了无啮合力齿轮泵的设计思想 、结构原理和特点,以无啮合力齿轮泵体积最小为目标建立无啮合力齿轮泵的优化数学模型,应用MATLAB优化工具箱进行无啮合力齿轮泵的结构参数优化设计,在满足约束条件下对其 主要参数进行运算,得出了优化结果,提高了设计精度和设计效率。  关键词:无啮合力齿轮泵;MAT
期刊
(安徽理工大学地球与环境学院,安徽 淮南 232001)  摘 要:根据锆石阴极发光和微区U-Pb定年的年龄结果,表明 皖南新元古代花岗闪长岩中包含三类不同成因的锆石,即:同岩浆锆石、简单结构继承锆石 和继承锆石核。同岩浆锆石能够反映岩体的形成时代与侵位条件,继承锆石反映岩浆岩的物 质源区和岩浆形成条件。通过各岩体锆石样品的不同成因锆石分析研究,得出皖南新元古代 各花岗闪长岩体具有相似的形成过程,
期刊
(西南交通大学力学与工程学院,四川 成都 610031)  摘 要:基于实验结果,提出子弹在撞击墩子端面处的瞬间,T 型杆的连接端面处满足应变相容关系的假定,基于此,应用应力波在端面处的传播性质,通 过理论分析解释了实测的应力波波形前后不一致现象,并给出了解决方案。使用ANSYS-LSDY NA有限元程序数值模拟了子弹撞击端面的过程,模拟的端面应力波幅值和实验实测幅值吻合 ,同时证实了假定的合理性
期刊
(1. 安徽理工大学地球与环境学院,安徽淮南232001;2. 中国地质大学工程学院, 湖北武汉430074;3. 安徽惠洲地下灾害研究设计院,安徽合肥230088)  摘要: 通过对三峡库区唐家院子滑坡的地形地貌、地层岩性、地质构造及水文地质等因素的 深入研究, 采用传递系数法和卡丘金法对该滑坡进行了稳定性分析。结果表明:唐家院 子滑 坡目前整体处于稳定—欠稳定状态,滑坡前缘和中缘的部分区域有
期刊