基于LPP和Rocchio的文本分类方法

来源 :学术理论与探索 | 被引量 : 0次 | 上传用户：llyljl

【摘要】

：

【作者】

：

李小彦李晓波

【出处】

：

学术理论与探索

【发表日期】

：

2013年11期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：支持向量机（SVM）是最常用的文本分类算法之一，但文本特征空间维数巨大的问题会影响分类的效果。为此，提出了一种提高SVM分类性能的方法。本文利用LPP算法对特征空间的维数进行降维，然后用SVM算法进行分类。实验结果证明，该算法能够有效地提高分类的准确率。
　　关键词：Rocchio算法；LPP算法；文本分类
　　引言
　　随着互联网的快速增长，信息资源也飞速的增多，形式也多种多样，其中文本占大多数。那么怎样从大量的文本信息中搜索到自己想要的信息[1]，就成为了人们关注的焦点。文本分类技术在信息检索中起着重要的作用，因此，文本分类技术的成为了研究的对象。本文是对特征维数在利用互信息进行特征提取的基础上，然后采用LPP进行降维，从而提高了Rocchio分类器的分类性能。
　　1.Rocchio算法
　　Rocchio算法[2]又称为类中心最近距离判别算法，是基于向量空间模型和最小距离的算法，最早是由Hull提出来的，它是通过信息检索中用来计算“询问”与文本间的关联程度Rocchio公式改造而来的。由于Rocchio分类器非常的直观和简单，使得它广泛应用于文本分类领域中。
　　Rocchio算法的训练过程的目的是获得所有类别的中心向量，分类阶段是计算测试集文本与每一个类别中心向量的相似度，相似度最大的类别就是测试集文本所属的类别。Rocchio算法对于类间距离较大而类内距离较小的类别分布情况能达到较好的分类效果。这种算法计算简单、迅速，因此采用它有助于节省时间，提高效率。其计算类中心向量Oj公式为：
　　其中，Nj表示第Cj类中文本的总数，Yij表示类别Cj中的第i个文本向量。
　　向量相似度的度量方法有夹角余弦、向量内积、欧氏距离等，本文采用的是夹角余弦的方法，即
　　总的来说，Rocchio算法分类原理简单，且在进行训练和分类时计算量也相对较小，分类速度较快。
　　2.LPP算法
　　LPP算法具有保持数据集的局部非线性流行结构信息的能力，计算简单，处理速度快等特点，利用该算法可以大大减少参与比较的向量文本的数目，其基本思想是通过原始空间中离得近的点在降维后的低维空间中也保持较近，因此能保留原始数据的局部结构。
　　LPP算法过程为：m给定个数据点构成的集合，每个数据点属于高维空间Rn。[需要找到一个转移矩阵A，将这m个数据点映射到另一组点集合
　　3.基于LPP和Rocchio文本分类算法
　　本文在常用的文本分类技术之上，先采用LPP算法对特征维数进行降维，然后采用Rocchio算法进行文本分类，其算法步骤如下：
　　（1）依据训练文本的特征集合，建立训练文本向量空间模型，即对于文本集合，它的特征词集合其中，Ti为特征词是一维的。用m维的向量来表示文档di，而Wij的值用TF/IDF来计算第维特征词在文档di中的权重；
　　（2）将样本E，先利用信息增益提取特征，再利用LPP算法使向量di再次降维；
　　（3）待分类文本利用（1）的方法表示成向量的形式；
　　（4）用Rocchio算法进行分类。
　　4.实验测试与分析
　　为了验证其效果，需要用实验证明。本文的实验数据来自于复旦大学中文语料库，其中包括：科技、医药、生活、教育、娱乐、军事、艺术、建筑、交通、体育十个领域类，共2850篇，从中共选取了2192篇作为训练样本集，其余的文本作为测试样本集。
　　采用分词程序IKAnalyzer3.2.8对文本进行分词，用信息增益进行特征选取，再用TF/IDF计算文本特征词的权重值。评价分类效果，通常用查全率、查准率、F1测试值来进行评估。
　　其中：
　　查全率=分类正确文本数/类内应有的文本数
　　查准率=分类正确文本数/实际分类的文本数
　　F1=（查准率×查全率×2）/（查准率+查全率）
　　实验结果如表1所示：
　　从表1可以看出，对于每一个类别，在查全率、查准率及F1测试值上，本文算法要比传统的Rocchio算法都有所提高。本文算法比传统的Rocchio算法在平均查全率，平均查准率及F1测试值上有所提高，因此，本文算法确实提高了分类器的分类性能。
　　5.总结
　　本文是在通常的文本分类技术上，运用了LPP算法对特征维数进行降维，实验结果可以看出，本文算法比传统的Rocchio的分类效果要好。分类器的构造是文本分类的关键，还需进一步的研究。
　　参考文献：
　　[1]梁俊杰，冯玉才.LBD：基于局部位码比较的高维空间KNN搜索算法.2007； 34（6）：145-148，161.
　　[2]张征杰，王自强.文本分类及算法综述[J].电脑知识与技术.2012.
　　[3]周志华，杨强.机器学习及其应用2011[M].清华大学出版社，2011：20-22.

其他文献

史127区块井钻井液技术应用与探索

摘要：史127区块位于济阳坳陷东营凹陷中央断裂背斜构造带西段史南鼻状构造西翼史127砂体。该区块馆陶组及以上地层成岩性差，易发生坍塌卡钻。钻遇不整合面附近及疏松砂岩层。钻遇相当于邻井油气层段，防井喷。史127-20井是一口生产井，设计井深3328.46米，设计密度为1.45g/cm3，目的是钻探史127-20地区沙三中油层分布情况。该井选用聚合物润滑防塌钻井液体系，具有很好的抑制、防塌、润滑、抗

期刊

浅谈摄影的变迁与认识

摘要：现在的摄影是再平民化不过的了，摄影的诞生记录功能，这是其他技术或艺术所无法比拟或取代的。本文简要的叙述了摄影的历史变迁、摄影分类以及在当今生活中表现出来的现实意义。　　关键词：摄影；记录；生活；艺术；意义　　一、摄影的历史变迁　　摄影术的发明是人类近代文明的一大进步，因为它一出现就被深深地烙上了平民化的烙印。虽然摄影在很长的一段时间内是有钱人的玩物，在风云变幻的广阔天地里找到它的地位和作用

期刊

基于刑诉法修改下的非法证据排除规则的变化探讨

摘要：新修订的《刑事诉讼法》确立了具有我国特色的非法证据排除规则，该规则的确立对我国公检法机关有着不同的影响。本文从我国非法证据排除规则的概述入手，在分析新刑诉对于我国非法证据排除规则完善的基础上，结合人民检察院的实际情况，提出了检察机关应用非法证据排除规则的策略。该研究对我国非法证据排除规则的完善有一定的理论与实践借鉴作用。　　关键词：刑诉法修改；非法证据；非法证据排除规则；检察机关　　201

期刊

把好发票审核关，提高财务监督力度

发票的真实性、合法性、合理性是会计工作质量的客观要求。因此，把好发票审核关，提高财务内部监督力度，对做好会计工作具有重要意义。　　一、存在的现象和问题　　1、财务人员坐在办公室只管借款、报销、算帐，有时明知事业部门所购物品有水份，但只要发票内容要素齐全，实物验收签字也齐全（明知签字是流于形式），报销时一律放行。其实所购物品大都是日常消耗物品，这些物品既没有人记帐，又没有进出库登记。　　2、有少数财

期刊

提高混凝土结构施工的安全性

摘要：在我国当前迅速发展的工程建设领域中，混凝土结构仍是工程上采用得最广泛的主要结构形式，抓好混凝土结构工程的施工质量管理，对提高混凝土结构的单位工程质量和结构安全性能具有十分重要的意义。　　关键词：建设工程；大体积混凝土；结构施工；安全控制　　混凝土结构因具有强度高、刚度大、可就地取材、耐久性能好等特点而得到广泛运用，但是混凝土结构或构件在其质量的形成过程中，受到材料、施工工艺、施工方法、人员

期刊

机场助航灯光管理应把握的三个环节

摘要：本文主要介绍助航灯光操作使用、管理维护、排除故障的基本要求和具体方法，是从事助航灯光管理保障人员必须具备的基本技能。　　关键词：机场助航灯光；使用；管理；排故　　机场助航灯光是夜间和复杂气象条件下飞行的重要保障设施，灯光系统运行是否稳定可靠，直接影响飞行安全。目前，机场助航灯光系统普遍采用交流串联供电方式，该方式采用升压变压器和隔离变压器将控制设备、供电回路、灯具三者进行了电器隔离，具有系

期刊

多媒体技术对大学英语听说课改革的影响

自从大学英语四、六级改革以来，听说能力受到了越来越多的重视。听力在四、六级纸质考试中的比例提高到了35%，在网考中，听力和口语的比例甚至达到了七成以上。然而在四、六级考试中，学生听力的成绩普遍偏低。特别是在网考中，口语和听力结合的题型，学生普遍反映难以适应。新时代对于学生英语听说技能的要求也越来越高，传统的听说课教学难以满足时代需要，迫切的需要改革。　　一、大学英语听说教学中存在的主要问题　　本人

期刊

市场营销的项目化管理刍议

摘要：企业的市场营销活动是在特定的经营观念指导下进行的，选择正确的营销观念对企业营销活动起着至关重要的作用。本文在分析企业市场营销管理和项目管理基础理论的前提下，着重探讨了项目化营销管理模式的运作过程。　　关键词：市场营销；项目化管理；特点；价值；组织过程　　一、项目管理与市场营销管理的基本理论　　（一）项目管理思想基础　　项目管理（Project Management，PM），即项目的管理者，

期刊

浅谈军队财务精神文化的基本内涵

财务文化包含财务精神文化、财务制度文化与财务物质文化。军队财务精神文化是指长期倡导和培育的由部队理财人和全体官兵共同塑造的财务道德理念。良好的财务精神文化对于凝聚官兵意志、促进部队安全稳定和战斗力提升具有重要意义，其主要内容包括“诚信、敬业、创新、自律”。　　一、军队财务精神文化的核心是诚信　　孟子云：“诚者，天之道也，思诚者人之道也。”就是说诚信是自然界的基本规律，追求诚信是做人的基本原则。中华

期刊

如何加强建设工程消防审核、验收工作

消防设计审核是公安机关消防机构对按规定报送来的有关图纸、资料等进行技术审核并作出行政许可的一种活动。消防验收是各级消防部门监督建设工程消防质量的一个重要手段。两项工作都是国家法律赋予公安消防机关的行政许可职能。由于现阶段诸多因素的掣肘，如何做好这两项行政许可工作就成为了摆在防火监督部门面前的一道难题。　　一、当前建设工程消防审核、验收存在问题　　（一）消防监督人员业务素质不高，人手不足。目前的审核

期刊

基于LPP和Rocchio的文本分类方法

与本文相关的学术论文