论文部分内容阅读
粗糙集理论是上世纪八十年代初由波兰数学家Z.Pawlak首先提出的一种用于数据分析的数学理论,它能处理含糊性和不精确性问题。自上世纪九十年代起,该理论日益受到重视,并成为国际学术界的研究热点之一。经过二十年的发展,粗糙集理论已在机器学习、模式识别、决策分析、过程控制、数据库知识发现、专家系统等领域获得成功应用。本文主要对粗糙集理论在知识发现中应用的关键问题进行了研究。第一章对知识发现进行了概述,介绍了知识发现的基本步骤、基本方法、基本任务等。而后对粗糙集理论进行了概述,介绍了粗糙集理论产生的背景、粗糙集理论的发展、以及对粗糙集应用于知识发现的优点作了阐述。第二章介绍了粗糙集理论的一些基本概念,并将粗糙集与其他几种处理不确定性理论作了比较。第三章对离散化问题进行了研究,从启发式方法和基于遗传算法的方法两个方面进行了研究。通过对初始断点集进行精简,将Nguyen S H提出的著名的离散化算法进行了改进,改进后的算法在空间复杂度和时间复杂度上都有较大程度的降低;另外,提出了一种免疫算法用于求解决策系统的离散化问题,它与启发式算法相比能获得更小且一致的离散化结果,为粗糙集中连续属性离散化提供了一种新的思想。第四章对于决策系统属性约简问题,从信息论角度定义了一种新的属性重要性度量方法。与基于互信息增益的方法不同的是:这种度量方法不仅考虑了属性的值域的大小,而且还考虑了取值的分布。基于此度量,构造了相应的启发式算法,对多个数据集的实验结果表明该方法能更有效地对决策系统进行约简。第五章研究了决策规则的获取,重点是针对不一致决策系统,提出了一种修改的基于分类一致性的规则获取算法,对每个决策类计算出相应的下近似集与上近似集,然后用决策类的下近似集获得确定性规则,上近似集获得概率性规则。在规则获取时采用属性重要性方法,与LEM2相比,它能一次获得多条规则。通过对Hayes数据集的实验表明了算法的有效性。