论文部分内容阅读
当今,社会已经进入了网络信息时代,计算机与网络技术的飞速发展使整个应用领域的数据和信息急速增加,并且由于人类的参与,数据与信息系统中的不确定性更加显著。因此,如何从大量的、杂乱无章的、强干扰的数据中挖掘出潜在的、有利用价值的信息,便成为人类智能信息处理中面临的前所未有的挑战。由此产生了人工智能研究的一个崭新领域——数据挖掘(DM)。目前,数据挖掘中常用到的技术有:统计分析方法、决策树、神经网络、遗传算法、模糊集方法、粗糙集理论、可视化技术等等。在诸多方法中,粗糙集理论与方法对于处理复杂系统不失为一种较为有效的方法。粗糙集理论是近年来发展起来的一种处理不精确、不完全信息的软计算方法。该理论是波兰数学家Z.Pawlak 于1982 年提出的一种数据分析理论。它的主要思想是:在保持信息系统分类能力不变的前提下,通过知识约简导出问题的分类或决策规则。将粗糙集理论应用于数据挖掘具有明显的优越性——它无需提供所需处理的数据集合之外的任何先验信息,利用数据集上的等价关系对知识的不确定程度进行度量,从而避免了对知识的主观评价(如证据理论中的信念函数,模糊理论中的隶属度函数)所带来的误差。恰恰是这一点,使粗糙集理论在数据挖掘中具有更强的生命力。目前,粗糙集理论被成功应用于机器学习、人工智能、模式识别、智能信息处理等领域。目前,国内学界虽然对粗糙集理论有一定的认识,但是对于它在数据挖掘中的应用还重视不够,对不同类型的决策表的属性约简、值约简还未提出高效率的、可行的算法。即使有,也不能够很好地进行处理,存在一定的缺点。这大大地阻碍了粗糙集理论在实际中的应用。本文针对粗糙集理论研究背景和研究现状,将对以下内容进行研究:首先对数据挖掘进行简单的介绍,并对粗糙集应用于数据挖掘进行了可行性研究,阐述了利用粗糙集进行数据挖掘的基本步骤;接着介绍了粗糙集理论的理论基础,包括信息系统、等价类和不可分辨关系、上下近似集等;还详细介绍了粗糙集的约简和核的概念,它们是粗糙集的精华;然后介绍了数据离散化的问题,提出了基