结构图聚类算法的并行化研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:hlg1205
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
结构图聚类是针对无向图,根据顶点的相似度定义,将图顶点分类。结构图聚类算法作为数据挖掘和机器学习的基础算法之一,为海量数据的研究与分析提供一种基本方法,被广泛应用于现实生活的各个领域,如:生态环境、交通管理、模式识别、生物基因网络以及电子商务等,其运行效率决定了众多图分析算法的应用范围,是研究者最关心的热点话题之一。本文重点研究结构图的高效聚类问题,具体研究内容如下。首先,针对现有结构图聚类算法在处理大规模图数据时需大量计算边的相似度导致运行效率低的问题,提出了一种高效聚类算法CUWG。该算法通过状态转换图快速产生规模较小的聚类,合并这些小的聚类从而产生聚类结果,并且在计算边的相似度之前,先通过简单的相似边界判断,减少一些边相似度的计算,从而提高算法的运行效率。其次,针对CUWG算法处理极大规模图数据时大量计算边的相似度和频繁查询合并聚类导致运行效率较低的问题,结合并行处理的想法,提出优化方法CUWG+。相似度的计算和聚类的查询都是针对单个边或节点的操作,利用这种特性,提出将算法并行化处理,同时计算多条边的相似度,并行查询不同节点所属的聚类,从而提高算法的运行效率。最后,通过在多个真实数据集上进行实验测试,分析实验结果,验证了本文提出算法的高效性。
其他文献
在城市发展进程中,汽车增长速度过快、交通基础设施不完备等情况使得交通拥堵问题愈演愈烈。智能交通系统(Intelligent Transportation System,ITS)是一种解决交通拥堵问题的
资金不足、融资困难等问题使供应链上多数中小型企业无法获得最大效益,制约着企业自身乃至整条供应链的发展。供应链金融业务能够帮助中小企业获得正常经营所需资金,“释放”出中小企业因资金约束而被限制的需求,从而提升供应链整体价值。作为供应链上物流、信息流的集散中心,第三方物流(3PL)企业主导的供应链金融融资业务能充分整合供应链纵向上下游以及横向不同产业间的优质资源,通过风险池效应有效汇聚客户企业的风险,
迭代学习控制作为一种智能控制方法,适用于具有可重复运行特质且难以建模的复杂系统。它通过在有限时间区间内对控制输入进行反复的迭代修正来改善被控系统,最终使得系统的迭
第三方校准行业是一个完全、充分竞争的市场,除了价格因素之外,项目的承诺工期和准时性是第三方实验室赢得市场份额、获得客户青睐至关重要的因素。S实验室是一家老牌国有实验室,该实验室传统的承诺工期已经难以满足当前时代的要求,传统粗放的项目进度控制方法也难以满足客户期望,亟待实验室管理者解决。因此,论文提出了基于约束理论TOC改善校准项目流程,缩短校准项目工期的方法,运用TOC的五步骤,分析、识别和解决校
中国农业正处于由传统农业向现代农业转型升级的过程中,而提高农民素质、培养适应现代农业发展需要的新型职业农民,正是解决农业生产力发展滞缓问题的重要举措。但长期以来的
互联网普及化为人们的生活与出行带来了便利,但是,互联网中存在着大量信息,人们花费大量的时间对这些信息进行筛选,以便获得自己想要的信息,这种现象被称为信息过载,为了解决这一现象,推荐系统应运而生。但是由于推荐系统的开放性,很多恶意用户为了达到自己的目的,向推荐系统中注入大量虚假数据,使推荐结果发生改变,严重的破坏了推荐系统的稳定性。许多专家学者针对此问题提出了一些解决方案。然而,随着攻击方式逐渐向有
新疆是我国的棉花主产区,棉花产业的健康发展对于“乡村振兴”和“一带一路”战略的实施具有重要意义。然而,棉花生长常遭受不同程度的盐碱胁迫,且在生育前期易受到低温冷害;这些胁迫因子抑制棉花生长,进而降低产量。施用外源物质可有效地提高作物的抗逆能力。褪黑素是一种非酶促抗氧化物质,可调控植物种子的萌发、根与茎的生长、以及果实发育等一系列生理过程。然而,关于褪黑素调控棉花应对低温与盐碱胁迫的内在机制尚不明晰
学位
师生关系一直是广大研究者讨论的话题,师生关系的发展是基础教育积极发展的重要基础。但在当前教育实践中,师生关系从来就不被视为影响学构建功的关键因素,教师没有积极地把师生关系纳入自身专业发展、教育教学管理工作中来经营。在小学虽然也存在一种关怀样态的师生关系,但人们对关怀型师生关系的概念还很模糊,所建立的师生关系也只是围绕简单的关心而展开的教育。在越来越多的学者呼吁关怀教育的背景下,人们有必要重新审视当
学位
随着激光技术的快速发展,人们可以利用飞秒激光以及阿秒脉冲与物质相互作用来探索物质的内部结构及其超快动力学过程。强激光场驱动物质发生的一些非线性光学现象引起了人们
AdaBoost是数据挖掘领域中的一种经典分类算法,但是在噪声环境下容易发生过拟合,近年来已经有很多研究者提出了相关的改进算法,然而研究AdaBoost在噪声环境下性能的进一步提升仍有较高价值。本文研究利用学习自动机技术对AdaBoost进行改进,首先对经典数据挖掘分类算法AdaBoost的性能进行分析,随后提出一种使用连续动作学习自动机的改进算法。该算法在AdaBoost算法的基础上,使用连续动