以路径为中心的大规模图数据处理系统

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:sun593792820
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图是一种较为复杂的数据模型。与线性表和树相比,图能表达更多种类的信息。现实生活中很多场景都能用图表示,如最短路径的生成,疾病的传播,参考文献的引用等。图也能用来表示一些新型的模型,如网页链接关系,蛋白质分子的组成, RDF数据分析,社交网络分析等。随着互联网技术的发展,图数据的规模也呈爆炸式增长。由于存储和处理的局限性,传统的图数据管理系统已经很难解决大规模图数据的存储、查找、计算和更新的问题。因此,设计一种紧凑而高效的图数据处理系统成为人们亟待解决的问题。  以路径为中心的大规模图数据处理系统(TripleGraph),提出一种高效处理十亿级别图数据的技术。这种技术根据图数据的关联关系,采用树型结构对图进行抽象。为了减少图数据的存储空间,TripleGraph设计一种紧凑的存储结构。针对边集合进行按行压缩的方式,每一行的行ID只存储一次,行内的边集合采用增量变长整型压缩。为提高压缩性能,TripleGraph在预处理时对所有节点进行改进的深度优先分配ID策略,以保证相关联的节点具有相近的ID。在每一个存储块内,不同行的节点和边权重分别集中存储,以保证在数据更新时具有局部性和顺序性。在迭代计算方面, TripleGraph提出以路径为中心的大规模图数据处理方法。因此大部分情况下的计算都是顺序访问存储介质而不是随机访问。每一次迭代更新图的不同部分,这种策略在定义和执行图的局部性更新上有很好的收敛性。TripleGraph一方面发挥存储上的优势极大地减小了I/O的开销,提高了顺序读取数据的概率;另一方面采用线程窃取调度的策略,实现了处理器的负载均衡,减小了“木桶效应”。  TripleGraph通过对十亿级别的图数据在多种算法上的存储性能和速度性能上的测试,该方法在存储空间上比系统GraphChi至少降低了29%,在PageRank执行性能上比GraphChi至少提升7.6倍。实验表明TripleGraph在存储和迭代计算上均具有较好的性能。
其他文献
在包含多种数据结构的大型综合性应用系统中,数据的存储策略、如何提高存取速度和高效率的数据处理是系统面临的重要问题。Oracle的分布式实时应用集群提供了海量数据的存储策
机器学习是人工智能中最活跃、最具应用潜力的领域之一,RBF网络是一种高效的机器学习方法,能在任意精度下逼近任意非线性函数,同时具有优秀的学习能力、泛化能力和训练速度快等
目的 分析肺动脉血栓栓塞的临床特点及危险因素.方法 选取我院2019年1月至2020年1月收治的39例肺动脉血栓栓塞进行研究,分为观察组,另选取39例平原地区患者进行研究对比,分为
本论文将在对VTK(The Visualization Toolkit,可视化工具包)进行分析的基础上探讨并行可视化技术在医学图像处理中的应用。研究结束后所取得的成果将能够为数字图像处理项目的
中国加入世贸组织后,我国银行的许多传统优势将面临着更为严峻的挑战,面对内外强大压力,建设一个集中统一的全国性的数据集中处理环境,实现银行全国性数据大集中,既是我国银
刚刚闭幕的省第十二次党代会,认真总结了十一届省委的工作,明确提出了我省今后五年经济社会发展和党的建设的总体要求、目标任务和主要措施,描绘出一幅科学发展、人民幸福的
目的 研究根除胃内幽门螺杆菌(Hp)感染能否提高口腔牙周病的治疗效果.方法 从2018年1月至2020年1月前来四川省科学城医院口腔科、消化内科就诊患有牙周病合并存在胃内幽门螺
视频监控系统是银行安全防范系统的一个重要组成部分,其集成了计算机技术、网络技术、通信技术以及多媒体技术等,是当前的热点研究领域。随着银行业各种暴力及恐怖事件的发生
网络技术和Web服务技术的广泛应用,推动和促进了并行分布式计算的快速发展。并行分布式计算的主要特征包括并发性、分布性、实时性,具有这些复杂特征的并行分布式系统面临着
1998年1月6~7日,河北省科委、省新闻出版局在廊坊市召开了1997年度河北省科技期刊表彰大会。全省具有全国统一刊号的国家正式科技期刊100余家的代表近100人参加了会议。国家科