论文部分内容阅读
随着计算机、网络和通讯等信息技术的高速发展,信息的增长呈现超指数上升。信息量的急剧增长,使传统数据库的检索查询机制和统计分析方法已远远不能满足现实的需要,许多数据来不及分析就过时了;也有许多数据因其数据量极大而难以分析数据间的关系。如何从大规模的数据中挖掘深层次的知识和信息,而不仅仅是数据表面的信息,已经成为众多领域的研究热点。在这样的背景下,新的数据处理技术——知识发现便应运而生。 知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。数据挖掘是知识发现过程中的核心步骤,是目前相当活跃的研究领域。 粗糙集理论是波兰数学家Pawlak Z于1982年提出的一种分析模糊和不确定知识的强有力的数学工具。粗糙集理论作为人工智能领域的一个新的研究热点,它能够有效地处理不完整、不确定知识的表达和推理。这个特点使得粗糙集理论非常适合应用于数据挖掘。目前,基于粗糙集理论的数据挖掘方法已经成为主要的数据挖掘方法之一。研究基于粗糙集理论的数据挖掘具有极大的理论意义和现实意义。 介绍了粗糙集和数据挖掘的相关理论。在深入研究经典粗糙集理论的一些不足后,我们提出了一种粗糙集的拓广模型,即带隶属度及权重的粗糙集模型。在这种模型中,我们给出了带隶属度及权重的信息系统,进行了噪音的处理、近似空间的划分、决策属性对条件属性的依赖度的计算、属性的约简、关联规则挖掘步骤的建立等方面的研究,并用算例验证了该模型是可行的。这种粗糙集的拓广模型克服了经典粗糙集分类过于严格、对噪音过于敏感、某些隐藏在边界中的规则丢失等缺陷。它完全继承了粗糙集的性质,拥有粗糙集的所有优点。该模型提供了一种数理统计中常用的在一个给定错误率的条件下将尽可能多的对象进行分类的方法。该模型将在信息系统分析、人工智能及应用、决策支持系统、知识发现、模式识别、分类以及故障诊断等方面取得较好的应用。 今后的工作是开发基于这种粗糙集模型的实用软件系统和理论上的深入研究。