论文部分内容阅读
随着计算机技术及通信技术的发展,各行各业产生了大量的数据,为了揭示数据中隐含的规律,数据挖掘技术应运而生。目前,主要的数据挖掘方法有决策树、神经网络、回归分析、遗传算法、粗糙集、聚类等。其中,粗糙集理论以数据的分类能力为基础,在缺乏先验知识的情况下,能够解决潜在的、不确定的或含糊数据中的知识获取问题。它已在模式识别、特征选择、故障诊断等领域取得了成功应用。传统的分类方法常采用一个分类器进行分类,这就要求这一分类器能在所有的数据样本上都有较好的分类能力,这是难以实现的。多分类器集成理论为解决单个分类器分类能力的不足提供了有效方法。但作为机器学习领域的一个重要课题,多分类器集成在粗糙集理论中的应用还没有受到广泛的关注。基于以上背景,本文把粗糙集理论引入多分类器集成,研究了基于粗糙集理论的集成学习方法,主要内容如下:1、对基分类器的构造方法进行了研究。本文根据Rough set理论、C4.5算法、NB算法等三种不同的分类算法对训练数据集随机训练得到三种类型的基分类器,包括粗糙分类器、贝叶斯分类器和决策树分类器。2、对基分类器的差异性构成进行了研究。根据分类器集成理论,基分类器差异性越大,分类器组合的分类效果就越好。本文在两个方面体现了基分类器的差异性:一是基分类器是根据训练数据集随机生成的;二是基分类器采用三种不同类型的算法训练得到。3、提出多分类器集成策略及方法。为了达到最好的集成效果,本文首先训练多个不同类型分类器,并将训练数据集按照决策属性值分为多个子集。再根据K-means方法将测试数据集分为同样多个聚类集,并通过欧式距离找到它们与训练数据子集之间的对应关系。最后选择对训练数据子集分类效果最好的分类器对相应的聚类集进行分类测试。为了验证本文方法的有效性,采用大量UCI数据集进行实验,得到了较好的分类效果。