论文部分内容阅读
随着科技的飞速发展,数据在不断的积累,人类已经进入了大数据时代,但随着数据的急速增加和维度的不断扩大,如何能高质量和高效率的从高维大数据中获取想要的信息,已经成为当前数据挖掘领域研究的热点。本文采用MapReduce编程模型,对基于相关子空间的离群数据挖掘算法进行了研究,其主要成果如下:1)采用局部稀疏差异和局部密度差异的度量因子,给出了一种相关子空间中的局部离群数据挖掘算法。该算法根据K最近邻(K-NN),确定数据集中各数据对象的局部数据集,并依据属性值的稀疏因子生成全局的稀疏因子矩阵和局部稀疏因子矩阵,从而有效地反映了数据对象的局部稀疏程度;根据局部稀疏因子矩阵,计算属性维对应的局部稀疏差异因子,并确定数据对象对应的子空间定义向量,从而体现了具有任意性相关的相关子空间;如果数据对象存在相关子空间,则采用高斯误差函数体现相关子空间中各数据对象的局部密度差异,有效地降低了“维灾”的影响,使得离群数据的度量与相关子空间的维度无关,并能够度量相关子空间的数据对象,否则设置数据对象的局部密度差异为0,表明其为正常数据;选取局部密度差异(离群程度)最大的若干数据对象作为局部离群数据;最后采用UCI和恒星光谱数据集,实验验证了该算法的有效性。2)采用MapReduce编程模型,给出了基于相关子空间的局部离群数据挖掘并行算法。该算法针对上述1)中的相关子空间中的局部离群数据挖掘算法,首先分析了概率局部异常因子(PLOF)计算的并行化,并给出了在MapReduce模型下的实现过程;其次采用LSH分布式策略,给出了一种MapReduce编程模型下的局部离群数据并行挖掘算法;最后采用人工数据集和恒星光谱数据集,实验验证了该算法的有效性、可扩展性和可伸缩性。3)在上述研究基础上,以JDK为开发工具,设计并实现了基于相关子空间的天文光谱离群数据挖掘原型系统,并对实现技术进行了详细说明,从而为寻找未知的、特殊的天体提供了一种新途径。