数据密集型计算环境下的离群点挖掘算法

来源 :计算技术与自动化 | 被引量 : 0次 | 上传用户:qfcyzf2573
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:在数据密集型计算环境中,数据的海量、高维、分布存储等特点,为数据挖掘算法的设计与实现带来了新的挑战。基于MapReduce模型提出网格技术与基于密度的方法相结合的离群点挖掘算法,该算法分为两步:Map阶段采用网格技术删除大量不可能成为离群点的正常数据,将代表点信息发送给主节点;Reduce阶段采用基于密度的聚类方法,通过改进其核心对象选取,可以挖掘任意形状的离群点。实验结果表明,在数据密集型计算环境中,该方法能有效的对离群点进行挖掘。
  引言:
  随着数据海量增长、数据类型日益增多,如何快速处理数据密集型计算环境中数据是目前急需解决的问题。我们把以高效的方式获取、管理、分析和理解海量且高速变化的数据来满足目标需求的计算过程称为数据密集型计算[1]。数据可能以极高的速度生成,对数据的过滤、整合和存储等一系列操作必须能适应数据的生成速度。另外,数据密集型计算任务需要在合理的时间内分析和处理数据。但是,大多数情况下,数据以分布方式存储。因此,决定因素不再是计算能力,而是传输速度能否跟得上系统收集、处理和分析数据的速度[2]。Google基于大规模数据集的并行运算编程模型MapReduce将所有数据操作类型通过统一的编程模型连接起来,使海量、高速变化、异构和分布存储的数据能够在由普通计算机组成的集群中运行,在一定程度上实现了全局化的资源管理与调度。
  数据密集型计算环境中数据的海量、快速变化、分布、异构等特点给离群点数据的挖掘带来了新的挑战。数据量的增长速度甚至超过了单个主存储器或硬盘容量增长的速度[3,4], 地理位置的分布性和网络传输速度限制了大量数据在不同机器间的自由移动[5]。通过只传输中间处理结果等少量信息减小数据传输量以提高网络传输速度。采用分布式集群进行离群点挖掘成为了一种趋势。
  相关工作:现有的方法大多是基于统计分布、深度、距离、聚类或网格等的离群点挖掘方法。文献[6]基于统计分布提出了100多种针对不同数据分布的离群点挖掘方法。为减少距离计算,引进空间索引结构KD-树、R-树和X-树等查找数据点的k邻近[7]。这些方法在低维空间中时间复杂度接近O(NlogN)。但是,随着维度的增加,方法失效。基于聚类的DBScan[8]算法检测出聚类的同时也检测出了离群点。缺点是数据量增大时,对内存容量要求高,I/0开销很大。张净等人提出的IGDLOF算法根据邻居网格[9]中数据分布情况判断该单元格是否为稀疏单元,依次进行数据筛选。基于网格的OMAGT[10]算法,降低了挖掘大数据集时对内存的要求,但是需计算局部可达密度。基于网格和密度思想的FOMAUC[11]算法能有效提高算法效率和挖掘准确度,但是该算法不适用于高维大数据集,其整个过程都是在内存中进行的,对内存要求比较高。目前,基于MapReduce模型的离群点挖掘算法研究相对较少。
  MapReduce是由Google提出的主要用于海量数据处理的软件框架。它将数据看作一系列的
其他文献
摘 要:随着电力通信网络快速发展,运维人力资源不足、现场运维信息化程度低等问题日益突出。根据电力通信现场运维的实际情况,针对不同的运维任务和运维人员,推送不同的运维相关信息,在保证运维质量的情况下,尽可能的推送较少的信息,以此保证服务器资源的有效利用。同时对于多个客户端请求,根据每类推送内容的重要程度,确定每个推送信息的权值,根据动态权值加权循环调度方法,为每个客户端提供相关服务。对提出的算法进
导演(Director):史蒂夫·马蒂诺 (Steve Martino)  配音演员(Dubber):约翰·雷吉扎莫 (John Leguizamo)雷·罗马诺 (Ray Romano)  奎恩·拉提法 (Queen Latifah)丹尼斯·利瑞 (Denis Leary)  克里斯·韦奇 (Chris Wedge)乔希·佩克 (Josh Peck)  类型(Type):动画 (Cartoon)
编 者 注   同学们,你们知道每年十二月一日是国际艾滋病日吗?你们是否注意到这一天街上很多人都佩戴着红丝带呢?你们知道佩戴红丝带的意义吗?你是否也想亲自做一个红丝带呢?  The Red Ribbon is an international symbol of AIDS awareness. It is worn by people all year round and particularly
2014年9月4日,国务院正式发布《国家关于考试招生制度改革的实施意见》,这也是恢复高考以来最为全面和系统的一次考试招生制度改革,引发了大家关注。对于大部分考生来说,早已熟悉了文科、理科的分类,如果考试不再分文理是否会加重高中生学习负担,学校和家长又如何看待这一变革?记者就这些问题进行了采访。  目前,全国绝大部分地区的高考,都主要是按文理分科,考察语文、数学、英语三门,外加文科综合或理科综合的成
Mother: Get up, Kate. It’s seven o’clock. The sun is up and you are still in bed.  Kate: Yes, mum. But the sun goes to bed before six and I go to bed after nine.  妈妈: 起床了,凯特,七点钟了,太阳都升起来了,你还躺在床上。  凯特:
一、政治共识是立会之基  中共中央总书记习近平在中国共产党建党95周年纪念大会上的讲话中,多次提到“不忘初心”,意味深长,引人深思。我联想到禅学的说法“悟道不难,维持初心才难”,因为初学者的心是“虚”的,随时向一切可能性开放,而后来的阶段,心里装满了看法和理论,接受的可能性就减少了。共产党要不忘初心,民主党派呢?回顾历史,民进的创始人们是因为志同道合,同为国家前途担忧,都对国民党打内战和反民主的行
【中考英语完形填空专项强化训练参考答案】  一、 (A) 1~5 BCADC 6~10 CBBAD  (B) 1~5 ABCCD6~10 DBABC  (C) 1~5 DCBAB 6~10 DCDBB  二、 (A) 1. cars2. as3. news  4. money5. heard 6. become  7. other8. Americans9. watching  10. love 
单词识记:  1. pronunciation n. 发音,发音法; pronounce v. 发……音  2. differently adv. 不同地,有区别地; different adj. 不同的; difference n. 不同; be differentfrom ... 与……不同  3. frustrate v. 使沮丧,使失望; frustrating adj. 令人沮丧的,令人
Welcome to this short tour of London. In this square we are standing in the middle of London. Opposite(对面) is the National Gallery, a museum with lots of famous paintings. Go along the red street to B
摘 要 随着社会的不断发展,新课标提出要注重学生的综合素质发展,也就是同时要注重学生的身体素质发展。近年来体育教育在我国越来越受到重视,学生们学习体育能够锻炼自己的身体,促进身心的同步发展。小学体育中的田径运动是小学体育教学的主要项目之一。在体育教学中拥有很重要的地位,所以在小学体育中应当重视提升小学体育田径教学的总体水平。  关键词 小学体育 田径 教学方法 研究  小学阶段是孩子成长的重要时期