论文部分内容阅读
随着信息技术的飞速发展,科学和工业等各个领域积累了海量的数据。海量数据中存在着丰富的关联关系结构,识别和筛选有价值的关联关系是大数据复杂关联关系挖掘的重要任务之一。复杂关联关系挖掘广泛应用到机器学习和数据挖掘任务中,其发展深刻影响着相关领域的进展。然而,海量数据集中数据类型的复杂多样性、数据分布的不确定性、关联关系复杂多样性、多种关联关系共存性及伪相关关系存在性等特点,使得统计学意义下的关联关系挖掘方法面临诸多挑战。基于消减误差比例原理设计的关联关系度量,倾向于识别线性关联关系,对较复杂关联关系的识别需要依赖变换函数的选择。基于统计独立性检验设计的关联关系度量,严重依赖于联合分布函数和边际分布函数的估计方法,不同的估计方法或同种方法的不同参数设置都会产生不同的估计结果,在数据联合分布不存在时甚至无法计算。使用这些方法进行复杂关联关系挖掘,它们自身的缺陷和复杂性会不同程度地影响识别任务的准确性,增加任务难度。因此,亟待发展基于数据驱动的、不依赖数据分布、不依赖参数选择、不受关联关系形式影响且简单有效的复杂关联关系度量新范式。粒计算越来越成为人工智能、信息处理、数据挖掘和知识发现领域处理复杂问题的有效范式,基于粒计算的理论和方法,有望诞生新的复杂关联关系挖掘理论体系。文章紧密围绕大数据背景下关联关系度量新范式需面对的挑战和需满足的要求,从理论基础、方法设计和实证应用三个层面开展了基于粒计算的关联关系挖掘研究。文章的研究内容和研究成果如下:1、理论基础层面:(1)梳理了统计学意义下关联度量的两种构造机理,并分析了每种构造机理下代表性方法的特点及在大数据背景下面临的挑战。同时借鉴了这些方法的优势,结合大数据背景下复杂关联关系挖掘任务的需求,提出了关联度量新范式可能需满足的性质,为开展面向不同任务的关联关系度量提供了理论指导。(2)分析了粒计算理论中粒结构代表样本信息的有效性,统一了不同二元关系诱导的粒结构的知识表示框架,提出了不同粒结构之间的差异性度量。设计的粒结构分组算法揭示了样本粒可有效刻画和代表样本信息的特点,为设计基于粒结构的不确定性及关联关系度量奠定了理论基础。2、方法设计层面:(1)为了设计符合多元变量间关联关系挖掘任务的关联度量,提出了基于k-NN粒的不确定性度量(邻域熵、邻域联合熵、邻域条件熵和邻域互信息),并融合了不同邻域粒结构下的归一化邻域互信息,基于此设计了满足可比性、普适性、均衡性、单调性和可扩展性的最大邻域系数(MNC),理论和实验结果表明该度量可用于识别和筛选大数据中潜在的复杂关联关系。(2)为提供更多判别关联关系的辅助信息,深度分析了MNC在二元变量情况下的工作机制,设计了粒计算视角下衡量关联关系单调性程度、接近函数程度和复杂程度的统计量。(3)为了设计符合多元变量内关联关系挖掘任务的关联度量,提出了基于k-NN粒的多元变量邻域不确定性和邻域全关联系数,并融合了不同邻域粒结构下的归一化邻域全相关系数,设计了最大邻域全关联系数(MNA),实验结果证明了该度量可满足维度无偏性和噪声鲁棒性。3、实证应用方面:为克服经典模糊C-均值聚类算法忽略类簇间差异性信息的缺陷,引入多元变量间关联度量衡量类簇间多样性信息,设计了多样性诱导的模糊聚类算法,该算法显著提高了类簇不平衡和类簇间有交叉区域的聚类性能。本文初步形成了基于粒计算的多元变量间关联关系度量、多元变量内关联关系度量和二元变量关联关系辅助信息的非参数方法。从理论基础到实证应用的研究结果表明,基于粒计算的关联度量可有效解决统计意义下关联度量面临的挑战。基于粒计算的关联关系挖掘研究有望推动大数据理论分析与技术方法发展。