基于粗糙集属性约简的集成分类算法研究

来源 :贵州大学 | 被引量 : 2次 | 上传用户:xuanguiqq110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文本分类技术的主要任务是将非结构化的文本数据划分到相应的分类体系中。文本分类有着广泛的应用,例如新闻门户网站中的新闻自动分类、个性化广告推荐、垃圾邮件过滤、数字图书馆资源管理等。集成学习是机器学习的主要研究方向之一,其思想是使用多个子分类器对样本进行分类,并使用某种组合方式将各个子分类器的分类结果进行整合,得到最终的分类结果。相比单分类算法,集成学习具有更高的分类准确率和泛化能力。本文将集成学习运用到文本分类中,研究了文本自动分类和集成学习的相关理论,对文本分类和集成学习的关键技术进行了详细介绍。提出了一种适用于高维数据的特征选择方法和两种改进的集成分类算法。具体来说,本文做了以下几方面的工作:1、在将文本转换为向量空间模型后,将会得到一个高维稀疏矩阵。对数据进行降维时,单独使用信息增益或粗糙集属性约简的方法均有一些不足。本文将两种方法进行结合,提出一种基于粗糙集的二次特征选择方法,该方法可以发挥两种特征选择方法的优势,最大限度过滤冗余特征。2、提出了RRE_Classifers集成分类算法。该算法借鉴了Bagging和随机森林的思想,首先对原始训练集样本进行有放回的抽样,将得到的结果进行特征抽样,产生最终的训练集。由此训练差异性较大的子分类器,相比于Bagging,该算法可以使用更多的有差异性的子分类器,并且分类效果更好。3、提出了EBB_Classififers集成分类算法。该算法维护一个错误池,错误池中存放之前的子分类器错误分类的样本,之后随机将这些错分样本加入后续的训练集。使之前的训练结果能够对后续训练有帮助。4、对Bagging和提出的两种改进算法进行复杂度分析,并通过实验对三种算法的运行时间进行对比。5、在Tan Corp、搜狗语料库和复旦大学语料库三组中文标准语料库上进行实验,实验结果表明,本文提出的特征选择和集成分类算法有较好的性能。
其他文献
随着信息技术的高速发展,移动通信工具的使用已经渗透到人们日常生活的各个方面,同时人们对于移动通信网络服务质量要求越来越高。随着用户群的不断增大,移动通信网络所承受
无线传感器网络是由大量分布的不同规格和功能的具有感知、计算和通信能力的微型传感器节点通过自组织的方式构成的一个以数据为中心的无线网络。大量传感器节点通过相互之间
本文以面向行程时间预测的公交车GPS数据挖掘为主题,围绕该主题,进行了相关内容的研究。论文共分七章。第一章给出了本论文的相关研究背景和意义、研究现状和论文主要研究工
计算流体力学(Computational Fluid Dynamics,CFD)采用数值计算方法针对复杂流动问题进行求解以发现各种流动的现象和规律,已经广泛应用在航空、航空、气象等领域。格子Boltzma
序列模式挖掘技术研究作为数据挖掘与知识发现领域的重要分支,它的目的是发现有趣的序列事件,为理论或实际应用提供数据支持。不同于传统序列模式挖掘思路,负序列模式提供了
随着互联网的高速发展,网络信息量大幅增长,面对海量数据信息用户无法快速有效地获得对自己有用的信息,即“信息过载”问题,搜索引擎和推荐系统是解决“信息过载”问题的重要
近年来,针对数据流的挖掘研究已成为数据挖掘领域中一个新的研究热点。和传统静态数据库中的数据不同的是,数据流具有连续的、无限性、和实时性的特点,使得传统的频繁模式挖
随着互联网的迅速普及,电子邮件在人们的生活中占据了越来越重要的地位。由于它使用方便、发送快捷、成本低廉等优点被人们使用,成为现代社会中非常重要和广受欢迎的通讯方式
视频水印是当今数字水印技术中的一个研究热点。在信息社会中,由于大量消费类数字视频产品的的增长,如VCD,DVD等网络多媒体数据,给人们前所未有的享受与便利的同时,数字产品
本文研究总结了目前图像垃圾邮件过滤技术和图像垃圾邮件分类的算法,并对各种垃圾邮件检测算法进行了性能分析。针对不同的图像垃圾邮件类型,本文提出了两种实现图像中文本区