近邻传播聚类并行化策略研究与应用

来源 :中国民航大学 | 被引量 : 1次 | 上传用户:guoxiuguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近邻传播聚类算法(Affinity Propagation简称AP算法)是一种新型聚类算法,它是一种基于类代表点的算法。该算法具有自动决定聚类个数以及能够处理相似关系不对称数据等优点。其基本思想是通过维护数据对象之间的相似度矩阵、吸引度矩阵以及归属度矩阵来表征两两之间的关系紧密程度,并通过不断迭代更新吸引度矩阵与归属度矩阵来筛选出具有真正代表性的数据对象,实验表明该算法在进行迭代计算时,在聚类精度相同的情况下,其迭代次数远远小于其他类型的聚类算法,从而证明该算法具有十分高效的聚类精确度,但是其缺点也很明显,即每次迭代十分耗时,因此经典近邻传播算法虽然聚类精度高,但是不具有处理海量数据的能力。针对以上问题,本文的主要工作如下:1.针对实现并行化平台选择的问题,通过对Hadoop和Spark以及各自的生态系统进行了深入的研究和分析,总结出各自所具有的特性,并对Hadoop Map Reduce与Spark各自所适应的应用场景进行了综述性的阐述。2.针对近邻传播算法不具有处理海量数据的能力,基于MapReduce平台,结合高效的聚类评价指标,研究算法并行化策略,提出了半监督的分布式近邻传播算法。首先对数据进行划分,聚类求出局部类代表点,然后综合局部类代表点和其他监督参数进行全局聚类,从而得到具有全局代表性的类代表点。实验结果表明算法有着十分良好的准确性和效率。同时,将其应用在民航超限事件上,实验表明该算法能进行有效的QAR数据分析。3.针对经典K-means算法对初始聚类中心敏感且无法处理海量数据的问题,结合近邻传播算法,提出了近邻传播算法优化的并行K-means算法。首先对上文的分布式近邻传播算法进行修改,然后运行并将结果作为K-means的初始聚类中心输入到各个集群节点,最后并行化运行K-means算法。实验结果表明,在处理大数据时,该优化算法在处理时间上具有明显的优越性。4.最后将近邻传播算法的并行化策略修改并移植到Spark平台,初步实现了基于Spark平台的分布式近邻传播算法。实验表明,该策略在Spark上仍然具有可行性。
其他文献
近年来,随着海量传感器、智能终端、网络通信设备的大规模部署,一个由终端设备组成的全球化物联网逐渐形成。当前,物联网发展面临的一个障碍是为用户提供基于传感器信息的搜
随着我国经济的发展,资本市场日趋成熟,运行机制日趋完善。我国企业并购频率的不断提高,医药行业也像其他企业一样进入了并购的高峰期。医药行业在政策环境和竞争环境的双重压力下,形势日益严峻,越来越多的制药企业试图通过获取优质资源来加快企业的发展。因此,产业运作和资本运作的双轮驱动模式一直是中医药发展的主要路径之一。2010年,复星医药大胆的走上了并购重组之路,积极响应政策号召,抓住行业重组契机,不断的在
随着直驱风机(direct drive permanent magnet synchronous generator,D-PMSG)的大规模接入,我国多地区发生了与风电机组相关的次同步振荡(Sub-synchronous Oscillation,SSO)问题,其严重威胁电力系统的安全稳定运行。因此,亟需建立合适的直驱风电系统模型来量化分析SSO特性,从而为SSO的抑制提供理论依据。本文展开如下研究
在互联网不断壮大发展的时代,通信网络中的传统安全、数据窃密等信息安全问题备受关注。信息隐藏技术作为一种新颖的隐蔽通信技术,在信息安全、隐私保护、版权认证等领域中发
呋喃化合物及吡咯[1,2-a]喹喔啉化合物是非常重要的有机化合物,广泛存在于自然界中,这两类化合物不仅是许多天然产物的核心结构单元,而且在生物医药等领域有着广泛的应用。目
王阳明的哲学思想历来被众多研究学者所关注,但是国内学术界对王阳明身体伦理的思想鲜有论述。随着21世纪身体伦理学研究的兴起,我国身体伦理学理论建设亟需资源。王阳明的哲学体系中蕴含着丰富的身体伦理思想,本文通过采用文献法、历史唯物主义法、比较法、调查法,试图对王阳明的身体伦理思想予以挖掘和梳理,通过这项研究为我国身体伦理学理论建设提供资源,并为现代人养生和现代医学的发展提供相应启示。明朝中叶,随着手工
最近,随着智能电子设备和OTT应用的激增,导致数据流量需求的指数增长,无线网络已经从传统的以连接为主的通信(如电话和短信)转变为以多媒体内容(如视频和内容共享)为主的通信
百脉根既可作优良饲草,也可作草坪植物和生态草,具有较高的利用价值和广阔的发展前景。因此高产、优质百脉根种质资源的筛选与选育是提高其利用价值的主要途径。本研究以里奥
澳洲茄胺是来源于茄属植物中的甾体生物碱,可与不同种类、不同数目的配糖结合形成各种糖苷生物碱。此类生物碱具有多种药理活性,如抗氧化、营养神经细胞、抑制真菌等作用,特
伴随着互联网的快速发展,对于如何将网络文件便捷、高效的分享,一直都是人们所研究的对象。传统C/S架构的文件分享系统由于其服务器带宽和存储量的限制,已经越来越满足不了用