论文部分内容阅读
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。基于数据挖掘的KDD技术近来得到人工智能领域的广泛关注。粗糙集(RoughSet)理论是波兰数学家PawlakZ.在1982年提出的一种可以分析模糊和不确定问题的数学理论。这一理论从新的视角出发对知识进行了定义,它把知识看作是关于论域的划分,并引入代数学中的等价关系来讨论知识。它提供了一整套方法,从数学上严格地处理数据分类问题,是一种比较适用的归纳、分类方法。目前已经在人工智能、知识与数据发现、模式识别与分类、故障检测等方面得到了较为成功的应用。
利用粗糙集理论进行数据挖掘,抽取知识规则,最重要的一点就是基于粗糙集的属性约简和规则提取算法的研究。通过约简操作,降低属性的维数,提取出适用于决策支持的知识规则,是粗糙集理论的最重要应用之一。
本文从属性约简和规则提取这两个方面,认真研究了国内外相关算法,重点研究了基于属性频率函数的属性约简算法和用于规则提取的启发式值约简算法。
首先,针对基于属性频率函数的属性约简算法提出了一种改进算法。改进算法引入区分数组,代替常规算法中的差别矩阵,采用了新的属性选择方案,同时增加消冗操作,可以得到近似最小约简。
其次,在规则提取方面,提出了基于属性值重要性的启发式值约简算法。算法以属性值的重要性作为启发式信息,并以属性值核作为初始候选集合,不断判断当前候选集合是否为一个值约简,若不是则不断选择重要性最高的属性值添加到候选集合中,直到当前候选集合为一个值约简;同时提取规则,删除决策表中能够利用该规则作出决策的记录。如此反复,直到决策表所有记录删除完为止。
最后,本文对两个算法进行了实现,并采用UCI机器学习数据库中的大量数据进行了测试,证明了算法的正确性和有效性。