论文部分内容阅读
随着科学技术尤其是互联网技术的发展,各个领域获取的数据和信息都在爆炸式增长,形成了庞大的数据库。海量的数据远远超越了人工分析数据的能力,更难以凭主观经验去甄别,而传统的知识获取方法效率比较低下。在这种背景下,如何能够从大量信息中提取有用知识的方法是当前研究的热点之一。属性约简是数据挖掘中极其重要的一种数据预处理技术。复杂数据背景下的属性约简是目前面临的巨大挑战之一。粗糙集理论是消除信息系统中属性冗余,处理不确定、不完备、不一致数据的数学工具,广泛应用于机器学习、数据挖掘、决策支持等领域。该理论的优点是处理问题时不依赖给定数据集之外的任何先验信息,对问题的描述和处理更加客观。因此,利用粗糙集理论研究不完备数据的属性约简有重要的理论和现实意义。本文在动态不完备数据的现实背景和粗糙集理论的属性约简框架下,以增量式更新为研究策略,研究了单一对象增加的属性约简更新算法,探索动态数据中知识发现的理论依据与方法。为此,本文在不完备信息系统和不完备决策系统中,以属性约简为目的,采用粗糙集理论作为数学工具,针对不完备信息系统和决策系统中单一对象增加的属性约简进行了研究,取得主要成果如下。(1)系统地分析和证明了上近似约简与基于正域的约简等价、下近似约简与分配约简等价,且分配约简中必包含一个基于正域的约简。使用示例说明分配约简比正域约简包含有更多的不确定知识,更具有鲁棒性。(2)研究了不完备信息系统新增加单一对象后,属性约简的更新机制。在理论分析的基础上,设计了不完备信息系统的增量式属性约简方法,并与非增量式算法进行实验对比,验证了增量式算法的高效性。(3)在比较了基于正域的约简和分配约简的优劣的基础上,研究了动态不完备决策系统的分配约简的更新机制。在分配约简的更新过程中,通过构建新的决策系统,缩小属性约简的范围和减少计算量,设计了不完备决策系统的增量式分配约简算法。实验分别对算法在属性约简长度、计算时间、分类能力等方面的有效性进行了验证。