相关子空间中的局部离群数据挖掘及应用

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:foreverfreedom5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的飞速发展,数据在不断的积累,人类已经进入了大数据时代,但随着数据的急速增加和维度的不断扩大,如何能高质量和高效率的从高维大数据中获取想要的信息,已经成为当前数据挖掘领域研究的热点。本文采用MapReduce编程模型,对基于相关子空间的离群数据挖掘算法进行了研究,其主要成果如下:1)采用局部稀疏差异和局部密度差异的度量因子,给出了一种相关子空间中的局部离群数据挖掘算法。该算法根据K最近邻(K-NN),确定数据集中各数据对象的局部数据集,并依据属性值的稀疏因子生成全局的稀疏因子矩阵和局部稀疏因子矩阵,从而有效地反映了数据对象的局部稀疏程度;根据局部稀疏因子矩阵,计算属性维对应的局部稀疏差异因子,并确定数据对象对应的子空间定义向量,从而体现了具有任意性相关的相关子空间;如果数据对象存在相关子空间,则采用高斯误差函数体现相关子空间中各数据对象的局部密度差异,有效地降低了“维灾”的影响,使得离群数据的度量与相关子空间的维度无关,并能够度量相关子空间的数据对象,否则设置数据对象的局部密度差异为0,表明其为正常数据;选取局部密度差异(离群程度)最大的若干数据对象作为局部离群数据;最后采用UCI和恒星光谱数据集,实验验证了该算法的有效性。2)采用MapReduce编程模型,给出了基于相关子空间的局部离群数据挖掘并行算法。该算法针对上述1)中的相关子空间中的局部离群数据挖掘算法,首先分析了概率局部异常因子(PLOF)计算的并行化,并给出了在MapReduce模型下的实现过程;其次采用LSH分布式策略,给出了一种MapReduce编程模型下的局部离群数据并行挖掘算法;最后采用人工数据集和恒星光谱数据集,实验验证了该算法的有效性、可扩展性和可伸缩性。3)在上述研究基础上,以JDK为开发工具,设计并实现了基于相关子空间的天文光谱离群数据挖掘原型系统,并对实现技术进行了详细说明,从而为寻找未知的、特殊的天体提供了一种新途径。
其他文献
师生关系历来都是教育的一个重要组成部分,是实际教育教学活动中最为基本也最为重要的人际关系,大学作为思想碰撞和精神交流的前沿阵地,师生双方对主流思想与科技的认知性及
目的:研究补阳还五汤对脑缺血后伴抑郁大鼠脑内Notch信号通路的影响。方法:采用线栓法复制局灶性脑缺血大鼠模型,将大鼠随机分为假手术组、MCAO组、PSD组、PSD+补阳还五汤组和P
小学阶段的课余篮球训练是一个科学、复杂且完整的教育、教学过程,是篮球训练中最基础的启蒙阶段。探索小学阶段课余篮球训练的特点和规律性,构建切实符合小学实际的篮球训练的
改革开放以来,我国中小企业的发展突飞猛进,在促进国民经济发展、丰富人民生活方面发挥了重要的作用。与此同时,中小企业融资困难也逐渐成为制约其发展的重要因素。虽然,国家在法
“两化”融合的快速推进使得以太网技术在工业过程控制领域的应用日益广泛,通过以太网连接可实现在不同的网络互联设备之间共享数据信息。相对早期的现场总线技术,工业以太网融
高速开关阀具有结构简单、抗污染能力强和价格低的优点,通常以多个高速开关阀构成液压桥路的形式,作为两级比例阀的先导级使用。然而,高速开关阀先导液压桥路存在死区过大和
图像的清晰化处理技术在我们的日常生活中的应用非常广泛,通过图像增强或者图像复原等方法,可以将图像中所隐含的更多细节信息展现出来,便于人们的视觉观察和后期的分析研究
萧红是在国内外动荡不安的局势下登上文坛的,她是一个极具个性的作家,她关注五四以后中国由传统社会向现代社会的艰难变革,以及在此环境下中国人的处境和命运。所以,萧红的小
随着海上石油开采规模的不断加大和环保要求的日益提高,海上平台采油生产过程中所产生的高含油污水对海洋生态环境带来了极大威胁。本文采用絮凝旋流-UBD菌深度降解两者种处
约翰·斯图亚特·密尔(John Stuart Mill)是19世纪英国著名的政治哲学家、经济学家、逻辑学家,思想蔚为壮观,学术造诣极高,无论是《功利主义》、《论自由》或是《代议制政府