论文部分内容阅读
作为挖掘隐藏于海量数据中有价值知识的数据挖掘技术,自20世纪80年代后期提出以来发展迅猛,现在广泛应用于商业、电信、金融、生物学等领域。其中分类技术作为数据挖掘的一个研究热点,如何构造一个高效的分类器是主要研究对象。本文充分利用Rough集和神经网络各自的优点,构造了基于Rough集的神经网络分类器。
Rough集是一种处理不完整、不确定知识的数学工具,在不需要所处理数据之外任何知识的条件下可以发现数据中的规律。而作为Rough集中核心概念之一的属性约简广泛应用于对数据进行预处理,删除数据中的冗余属性。而神经网络模拟生物神经处理元,通过不断地学习,调整权值,建立处理问题的模型。其具有高度的非线性映射能力、并行性、鲁棒性以及自组织和自学习能力,广泛应用于分类数据。
Rough集和神经网络都广泛的应用于数据挖掘。但由于Rough集对数据中的噪声数据敏感,而神经网络对数据中的冗余数据的学习容易导致网络训练过度。因此本文首先使用Rough集对数据进行预处理,删除其中的冗余数据,然后将处理后的数据输入神经网络进行学习,构造了基于Rough集的神经网络分类器。
本文主要研究内容如下:
第一,介绍了Rough集的基本概念,深入研究了Rough集中U/P算法,针对目前求U/P算法的不足,结合树型结构提出了一种新的求U/P的数据结构――不可分辨关系树,在此基础之上实现了一个求解U/P的快速算法。
第二,将量子遗传算法引入属性约简,结合传统遗传算法中的操作算子,在量子遗传算法中加入了量子交叉操作和量子变异操作。使用改进后的量子遗传算法进行属性约简,不仅收敛速度更快,而且可以有效地防止算法陷入局部最优。
第三,应用BP网络和LVQ网络构造了基于Rough集的BP分类器和LVQ分类器。分别使用约简前后的学习样本输入BP网络和LVQ网络进行实验,比较了属性约简对分类器性能的影响,以及BP网络和LVQ网络对分类器性能的影响。