基于协同边推导的动态流式图并行抽样算法

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:excalibur
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着应用不断深入,在社交网络服务、科学计算仿真等场景中,图数据持续、大量产生,对其进行快速、有效分析具有十分重要的意义。在某些对精确度要求不是很高或者只要求反映部分关键图特性的应用中,采取从原图中抽取具有代表性的子图进行分析的方法,能节省计算资源和提高处理效率。对动态图抽样时,原图的持续变化导致抽样过程中无法获取全图静态数据,故通常采用流式的抽样算法。不过流式抽样算法由于累计迭代特性,抽样过程必须串行,因此当抽样子图规模较大时,抽样过程减速严重,难以保证实时性,而若抽样子图偏小,则难以保证其与原图相似。现有并行抽样算法针对的都是静态图,不适用于动态图,因此需要提出一种并行的流式抽样算法。研究分析典型的流式图抽样算法PIES(Partial-Induce Edge Sampling)及其改进算法PIES-INV,分析PIES并行化方案存在的问题,提出了一种基于协同边推导的动态流式图并行抽样算法PaStS(Parallel Streaming Sampling)。PaStS与PIES-INV采取相同的暂存点替换策略,在并行抽样时,利用全局点信息同步的机制实现动态调整各抽样器的抽样目标大小,以及实现基于全局点集的协同边推导,从而解决流式抽样算法并行化时点和边大量减少的问题。经过在真实动态图数据集和生成图数据集上的测试,PaStS算法相比PIES,在并行度为8时抽样效率能提高15到49倍。PaStS抽样得到的子图在四种图特性的代表性上与PIES-INV比较接近,在多数情况下都比PIES好。但是在度分布较为均匀的图中,PaStS算法在度分布特性和k-core分布特性上不如PIES。另外,PaStS算法在不同数据集上的集聚系数特性上表现比PIES和PIES-INV稳定,在有效直径特性上表现比PIES稳定。图数据快速变化时PaStS仍能保持较好的抽样效果及稳定性。
其他文献
时空数据管理是时态数据管理和空间数据管理的统一体,包括时间与空间两个要素,主要用于管理和储存位置或形状随时间变化的空间对象。时空数据管理可以应用于环境变迁研究、行
如今,随着人们生活水平的提高,人们对高品位和个性化的追求也越来越强烈,量脚定制正顺应了“个性化定制”这一发展趋势。脚型的获取是量脚定制的基础,本文基于计算机视觉的多视点
在图像文本检测时,需要高效可靠的方法从图像中学习表征性强的文本特征。在无参考图像质量评价中,准确的质量评估也依赖关键质量特征的提取。在这两个应用中,有效自动地提取可视
近年来,随着科技的发展,与位置服务有关的定位技术、导航技术、监控技术已经广泛走进现实生活。如今,手机、车载设备等电子产品提供位置服务相关功能越来越普遍。这些应用的
大幅面扫描仪的市场前景广阔,主要应用在工程图纸输入及处理、地理信息系统、艺术品复制以及制版行业。目前行业用户对大幅面扫描仪图像精度和扫描速度的要求不断提高,使得新一
边框纹样是我们身边最常见的纹样之一,早在中国历代传统图案纹样中就已出现,这些纹样被人们广泛应用于日用器皿、青铜器、礼器、雕刻品、漆器等工艺美术作品中,既有实用价值
随着信息化的发展,业务流程软件越来越受到企业的重视。企业使用流程的原因,一、可以协同各个岗位的工作,并能监控业务流程;二是协助多任务、多角色、多协作应用系统的开发。但在
网络是当代信息社会的重要基础设施,也是一个具有相当复杂性的系统。对网络的运行的管理,无论从社会、商业和技术的角度来看都愈益重要和迫切。网络测试是对网络进行监控、管理
Hadoop分布式文件系统(HDFS)是一个被广泛应用的分布式文件系统,它基于传统TCP/IP网络,由于传统网络的局限性,HDFS只能掌握节点的运行状况,比如节点的磁盘I/O,CPU和内存资源信息以及
自互联网诞生以来,尤其是最近几年移动互联网、物联网和云计算的发展,催生了网络数据的指数级增长。这给存储系统造成了极大的压力。为保证数据的可靠性,存储系统通常采用多