论文部分内容阅读
在大数据时代,各类数据中蕴含的丰富知识可为人们解决实际问题提供有益的帮助。有序数据是实际应用中广泛存在的一种重要数据类型。实际应用中产生的海量有序数据随时可能发生快速变化,使得从中进行准确高效的知识发现和更新极具挑战。此外,对于来自不同数据源且随时发生快速变化的多源动态有序数据,也需要对其中挖掘出的知识进行高效更新和融合。因此,面向动态有序数据的知识发现是数据挖掘的核心任务和重要方向之一。海量动态数据通常具有复杂性和不确定性,而粒计算理论和粗糙集理论是处理复杂问题和不确定问题的有效工具。粒计算理论可将复杂问题逐层细化,以降低解决复杂问题的难度,适于应对海量动态有序数据的复杂性。粗糙集理论仅根据当前获取的信息即可有效地处理各种模糊的、不精确的或不确定的问题,而不依赖于任何先验信息,适于应对海量动态有序数据的不确定性。本文以发生多维度动态变化的单源和多源有序数据为研究对象,基于粒计算和粗糙集理论,利用并改进优势关系粗糙集模型,结合集合方法、矩阵方法和增量学习策略,研究单源和多源有序数据发生多维度动态变化时高效获取并更新知识的方法。具体的研究成果如下:(1)当有序信息系统中对象和属性同时增加时,通过改进P-泛化决策的定义,简化了优势关系粗糙集的近似集求解过程。为避免原有属性之间的重复比较,定义了优势特征矩阵的概念,建立了基于改进的P-泛化决策和优势特征矩阵的近似集动态更新模型,提出了采用增量策略的近似集动态更新方法并设计出相应算法。另外,考虑到算法的实用性,提出了一种可减少内存消耗的矩阵存储策略。(2)当有序信息系统中对象集和属性值同时变化时,分析并揭示了P-泛化决策的性质,定义了P-泛化决策上域和下域两种概念,能够从本质上反映出对象之间的实际优势相关性,以避免对象之间不必要的比较,极大地提高了求解近似集的效率。针对对象集和属性值同时变化的情况,基于P-泛化决策上域和下域分别提出了高效更新近似集的方法。两种方法不仅适于处理有序信息系统中对象集和属性值同时变化,也适于处理对象集单独变化。(3)当有序信息系统中属性增加和属性值同时变化时,提出了优势特征矩阵与P-泛化决策域相结合的策略。为使基于P-泛化决策域求出的优势特征矩阵满足优势对称性,改进了P-泛化决策上域和下域的定义。此策略先利用P-泛化决策域,仅通过比较部分实际优势相关的对象即可求出优势特征矩阵,再利用优势特征矩阵,避免了原有属性之间的重复比较,进而建立了近似集的动态更新模型,并提出了高效的近似集动态更新方法。此方法具有通用性,不仅适于处理属性增加和属性值同时变化,也适于处理属性单独增加或属性值单独变化。(4)对于对象增加和属性值同时变化的单源动态有序数据,提出了基于粒度分解思想高效更新近似集的并行处理方法。此方法将单源动态有序信息系统划分为若干基本有序信息粒,并与P-泛化决策相结合,通过并行更新P-泛化决策自信息粒、P-泛化决策互信息粒,以及对两种信息粒的并行融合来高效地更新P-泛化决策,从而求出更新后的近似集。此并行方法可直接用于多源动态有序数据环境中,即同样适于处理对象增加和属性值同时变化的多源动态有序数据。本文系统地研究了发生多种二维动态变化时,单源和多源有序数据的高效知识发现及更新机理,提出了相应的知识发现及更新方法,并结合粒度分解思想,提出了可在发生二维变化的单源或多源有序数据中发现并更新知识的并行架构。通过基于UCI数据集和人工数据集的大量实验,验证了所提出方法及相应算法的高效性。本文的研究工作为发生多维度变化的海量动态有序数据建立了基于优势关系粗糙集模型的知识更新框架,提供了高效的知识更新方法,也为多源海量动态有序数据建立了知识融合机制,并提供了知识融合方法。此外,本文改进的相关定义以及揭示的相关性质也可为优势关系粗糙集模型在其它领域的研究和应用提供便捷的方法和有效的工具。