大规模动态演化图的存储与分析系统研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:hello_tyj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图数据通过顶点和边的结构表达实体间的相互联系。图数据的分析计算技术,也称图挖掘技术,是通过分析实体间联系,获得关于实体的性质、特征等重要信息的一项技术,正广泛地应用于信息检索、社交分析、生物计算等多个领域。本文所述的图存储分析系统是支持图分析计算的平台系统。它利用抽象的编程接口支持图分析算法的高效实现,利用优化的系统设计提供高效的算法执行,从而实现超大规模的图数据分析。在大数据时代的今天,大规模图存储与分析系统及其相关技术已经成为一个重要的研究方向。而近年来,随着社交网络媒体、移动互联网等新型应用的普及,信息的组织方式、传播方式等,正发生着新的变化——信息呈现出更为明显的动态化特征。随着这一变化,捕捉了数据时序特征的动态演化图,其数据挖掘分析的价值正受到更多的重视,并随着演化图数据分析理论研究的同步深入,逐渐成为一个新的发展趋势。然而现有的图存储与分析平台系统针对的是静态图,并不适合动态演化图。因此,本文研究问题的重点,就在于:如何针对动态演化图分析这一类新的应用,设计并实现高效的大规模存储分析系统。我们通过分析,将动态演化图相关的应用主要总结为:(1)分析动态演化图准实时状态和(2)分析动态演化图长期变化趋势两类。前者着重于分析动态演化图的最新状态,而后者着重于分析动态演化图的长期历史变化过程。在文中,我们为这两类应用算法,设计并实现了动态演化图存储、分析系统。该系统以图数据的实时变化作为输入,产生具有全局一致性的图数据更新,并用于动态演化图准实时状态分析;同时,它会将接收到的时序数据存储下来,重新组织并用于动态演化图长期变化趋势分析。在系统的设计实现中,我们将针对动态演化图准实时状态分析和动态演化图长期变化趋势分析的两部分功能分别抽象成以下两个子问题加以解决:一、动态演化图在线分析的系统问题。在该问题中,大量新的图数据高速产生,应用需要不断地对最新的图数据进行在线处理,从而得到准实时的分析结果。然而实现准实时分析,数据的处理延迟需要足够低。此外,在分布式环境下,还需保持动态数据访问的全局一致性,从而保证分析结果的正确性。为此,我们设计了动态演化图在线分析子系统。该子系统的架构的设计考虑了处理流程的耦合关系,对图数据存储和分析计算进行了解耦。它选用了一个“时段提交”技术来处理图更新,并为系统的计算部分提出了全新的增量计算模型,大大降低分析计算的延迟。我们完成了该系统的工程实现,并在1亿条真实推特文本数据上进行了包括争议话题探测、近似最短路径计算、用户排序等多种应用的测试。利用40台机器组成的集群,我们获得了10万每秒的推文处理速率,并保持2.5分钟以内的数据延迟,满足了我们最初设定的“远超推文的产生速率”的性能要求。二、动态演化图离线分析的系统问题。在该问题中,系统需要保存动态演化图的长期历史数据,并支持动态演化图长期变化趋势的离线分析。相对于静态图分析处理的是单一的静态图,长时间跨度动态演化图分析面对的是多个时间点对应的一系列静态图。更大的数据量带来更高的处理开销,因而系统分析计算的性能非常重要。此外,系统还需要为动态演化图复杂多变的存取模式提供高效的访问性能,为分析性能提供保障。为此我们在文中提出了动态演化图离线分析子系统。它的副本相异数据排布技术利用数据中心多个数据备份的特点,为动态演化图不同类型的访问提供不同针对性的数据组织方式,从而在复杂多变的存取访问中获得更好的数据存取性能;利用全新的局部性感知分批调度技术——局部性分批调度,我们提高了分析计算中高速缓存的利用率并减少了数据同步的开销,极大地改善了长时间跨度动态演化图分析的整体性能。在实际大规模动态演化图进行的多项应用测试结果表明,该系统能够提供相对于目前数据库系统高达5倍的存取性能,以及相对于静态图分析平台高达10倍的性能。综上,本论文所述的研究,为图分析平台的发展进步,特别是动态演化图数据分析平台领域,做出了积极的探索。
其他文献
随着市场经济的不断发展,传统的财务管理理念已经满足不了医疗机构对经济效益的追求。大数据背景下的财务管理创新能够改善以往以科学为单位的财务结算模式,克服医疗机构在治
对比了酸性水溶液、酸性Fe3+溶液、含Fe3+的氧化亚铁硫杆菌菌液的SO2脱除效果,分析了氧化亚铁硫杆菌在SO2脱除过程中的主要作用.结果表明:(1)在实验的进气SO2浓度范围内,酸性水溶
目的探讨水化治疗对轻度肾功能不全患者冠状动脉介入治疗后的血尿酸水平的影响。方法对拟行冠状动脉造影检查的患者,测定血尿酸、肌酐水平,根据患者血肌酐水平,分为肾功能正常组
摘要:本文首先介绍了计算思维的概念以及在计算机公共课程中引入计算思维的必要性,然后阐述了提高计算思维能力的多种途径,包括:通过程序设计课程类课程培养学生计算思维、通过上机实验培养计算思维、通过大学生科创提高学生计算思维等几个方面。  关键词:计算思维;程序设计;上机实验  中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2016)14-0115-02  一、引言  计算思维
韩长冲地区主要由超高压变质岩、碱长花岗片麻岩、二长花岗片麻岩组成。前者包括超高压片麻岩、大理岩、榴辉岩和石英硬玉岩等。其中存在由黑云斜长片麻岩、石英硬玉岩、大理
考虑了在工件具有学习效应的条件下,目标函数为最大完工时间和总完工时间的单机成组排序问题.对这两个问题分别给出了多项式时间算法并证明了其算法的最优性.
分别用基于城市下垫面和雨污排放口监测方法对内江市建成区城市面源进行3次全过程降雨监测。结果表明:(1)屋面5种污染物3次降雨的次降雨径流平均浓度(EMC)平均值均低于其他监测点位。雨污排放口氨氮、总氮的浓度总体高于其他监测点位。交通道路,尤其是交通主干道,由于受人类活动影响大,各种污染物浓度都普遍较高。(2)交通主干道的降雨初始冲刷效应(FFE)最明显,其次为一般道路、庭院、屋面;雨污排放口的FF
本文通过研究政府官员选择的问题,对我国农村公共品问题的研究做一些分析。
编辑同志: 民事诉讼收费办法(试行)第十一条规定:“执行人民法院的判决、裁定或调解协议所实际支出的执行费用,由被执行人负担。”对此条规定,我们在实际执行中有以下几个问