网格环境下的分布式离群数据挖掘方法研究

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:hot_way
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群数据是数据挖掘的重要研究内容之一,是发现数据集中明显与其他数据行为不一致的对象,在许多邻域有着广泛的应用,例如:网络入侵检测、信用卡欺诈、天气预报监测等。但随着分布、异构、海量数据集的大量出现,采用集中式方法将无法满足实际需求。本文,针对两种不同的数据集分割(水平划分和垂直划分),采用网格作为分布式计算平台,对离群数据分布式挖掘算法进行了研究,其主要研究工作如下:(1)网格环境下的离群数据分布式挖掘算法。该算法针对数据集的垂直分割,首先采用局部离群因子LOF,在各个分节点上,计算数据对象之间的局部距离;其次,在主节点上,利用网格服务合并生成MinPts距离邻域,从而完成KNN查询过程;然后,将MinPts距离邻域传回分节点,完成LOF值的计算;最后,采用KDD CUP99作为数据集,实验结果验证了算法的有效性。(2)基于微粒群和子空间的离群数据分布式挖掘算法。该算法针对数据集的水平分割,以基于微粒群和子空间的离群数据挖掘(OM-PSO)为基础,在各个分节点上计算局部稀疏子空间,将各个局部稀疏子空间及在局部稀疏子空间中的数据个数传输到主节点上;利用网格服务将各个相同的局部稀疏子空间,合并生成全局子空间,计算各个全局子空间的适应值,通过适应值阈值的判断,确定全局稀疏子空间,并确定离群数据;采用离散化的天体光谱数据作为数据集,实验验证了算法的有效性。
其他文献
僵尸网络是指控制者出于恶意目的使用僵尸程序感染大量网络主机并对其进行控制从而形成的一种攻击网络,它主要通过命令与控制(C&C)信道进行通信。僵尸网络可以用来执行分布式
目前嵌入式领域软件开发方法不利于嵌入式系统的发展,如何将高级的构件技术应用到嵌入式系统软件开发中,以便快速灵活高效地设计系统,已成为其发展的关键。传统的构件描述与检索
无线Mesh网络作为一种解决无线接入“最后一公里”问题的关键技术受到了越来越广泛的关注。为具有不同QoS需求的多种业务提供服务质量保障是基于IEEE802.16无线Mesh网络的基
近年来随着市场竞争的加剧和客户需求的个性化,现代企业生产模式正在朝着“品种多样、批量变小、注重交期、减少库存”的方向发展。车间作业调度是解决现代企业生产过程中工
近年来,随着一些实际应用领域中大规模稀疏矩阵求解问题的推动,代数多重网格AMG(Algebraic Multigrid Algorithm)算法及其并行化的研究成为了数值计算领域的热点。   本文在
学位
随着社会信息化进程的飞速发展,信息技术已广泛应用于社会生活的各个领域,在更好地为人类提供服务的同时,也带来了一个极为严峻的信息安全问题。信息安全不仅关系到个人的切
在面向服务的体系架构中,Web服务是一种典型的技术手段,单个Web服务由于功能有限已不能满足用户复杂的应用请求,因此催生了通过组合现有Wcb服务来构建满足用户复杂需求的增值
如何解决标记多义性问题是机器学习领域的热门研究方向。目前机器学习研究领域应对标记多义性比较成熟的学习范式是多标记学习。多标记学习是对单标记学习的拓展,即允许同一
序列关联规则挖掘是数据挖掘的一个重要研究领域,它反映了大量数据中序列之间有趣的关联或相关联系[1]。但是我们通过传统算法产生的序列关联规则存在着非常多的冗余规则,用
视频取证已成为计算机视觉领域的一个热门分支。其中的视频分析在视频图像中的底层视觉特征与人类的语义概念之间的还存在鸿沟。在目前数字视频监控已经大规模应用的情况下,实