论文部分内容阅读
随着数据库技术的发展和信息时代的来临各行各业都积累了大量的数据,数据库中存储的数据量急剧增加。因此,为了提高工作效率和生活质量,人们必须获取蕴藏在其中的有价值的信息。为了达到这个目的,人们开始致力于从数据库中发现知识的研究。然而,众所周知,数据库中往往存在冗余数据、缺失数据、不确定的数据和不一致的数据等诸多情况,这些数据成了发现知识的一大障碍。粗糙集理论是1982年Pawlak提出,经历了20多年的发展,已经在理论和应用上取得了丰硕的成果。它不依赖于数据集之外的附加信息,是处理含有噪声、不精确、不完整数据的有力工具。许多知识发现技术仅仅适用于精确集,不适用于粗糙集,而现实中粗糙集是普遍存在的现象,因此基于粗糙集的知识发现模型在信息系统的研究领域具有重要意义。本文首先介绍了知识发现的历史、现状和可能的发展方向,并回顾了它的主要方法和技术。然后,论文对粗糙集理论进行了介绍,并对数据挖掘中的各环节运用粗糙集理论的方法进行了分析。接着论文研究了在数据缺失或信息不完备的情况下基于粗糙集理论进行分类规则的挖掘。结合前人的研究成果提出一种从不完备信息系统中提取有用的关系和规则的综合性方法。另外从粗糙集和决策树两种方法具有的优势互补性出发,提出了一种基于粗糙集的决策树生成方法。通过例子和实验,说明这两个方法的有效性。