以路径为中心的大规模图数据处理系统

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：sun593792820

【摘要】

：

图是一种较为复杂的数据模型。与线性表和树相比，图能表达更多种类的信息。现实生活中很多场景都能用图表示，如最短路径的生成，疾病的传播，参考文献的引用等。图也能用来表示一些

【作者】

：

张文娅

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2014年期

【关键词】

：

图数据处理系统存储结构关联关系压缩性能

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

图是一种较为复杂的数据模型。与线性表和树相比，图能表达更多种类的信息。现实生活中很多场景都能用图表示，如最短路径的生成，疾病的传播，参考文献的引用等。图也能用来表示一些新型的模型，如网页链接关系，蛋白质分子的组成， RDF数据分析，社交网络分析等。随着互联网技术的发展，图数据的规模也呈爆炸式增长。由于存储和处理的局限性，传统的图数据管理系统已经很难解决大规模图数据的存储、查找、计算和更新的问题。因此，设计一种紧凑而高效的图数据处理系统成为人们亟待解决的问题。　　以路径为中心的大规模图数据处理系统（TripleGraph），提出一种高效处理十亿级别图数据的技术。这种技术根据图数据的关联关系，采用树型结构对图进行抽象。为了减少图数据的存储空间，TripleGraph设计一种紧凑的存储结构。针对边集合进行按行压缩的方式，每一行的行ID只存储一次，行内的边集合采用增量变长整型压缩。为提高压缩性能，TripleGraph在预处理时对所有节点进行改进的深度优先分配ID策略，以保证相关联的节点具有相近的ID。在每一个存储块内，不同行的节点和边权重分别集中存储，以保证在数据更新时具有局部性和顺序性。在迭代计算方面， TripleGraph提出以路径为中心的大规模图数据处理方法。因此大部分情况下的计算都是顺序访问存储介质而不是随机访问。每一次迭代更新图的不同部分，这种策略在定义和执行图的局部性更新上有很好的收敛性。TripleGraph一方面发挥存储上的优势极大地减小了I/O的开销，提高了顺序读取数据的概率；另一方面采用线程窃取调度的策略，实现了处理器的负载均衡，减小了“木桶效应”。　　TripleGraph通过对十亿级别的图数据在多种算法上的存储性能和速度性能上的测试，该方法在存储空间上比系统GraphChi至少降低了29％，在PageRank执行性能上比GraphChi至少提升7.6倍。实验表明TripleGraph在存储和迭代计算上均具有较好的性能。

其他文献

面向应用的SQL/NoSQL数据库操作性能研究

在包含多种数据结构的大型综合性应用系统中，数据的存储策略、如何提高存取速度和高效率的数据处理是系统面临的重要问题。Oracle的分布式实时应用集群提供了海量数据的存储策

学位

数据库操作性能数据处理机制存取性能

AIP-RBF预测模型及其在盾构工程中的应用研究

机器学习是人工智能中最活跃、最具应用潜力的领域之一，RBF网络是一种高效的机器学习方法，能在任意精度下逼近任意非线性函数，同时具有优秀的学习能力、泛化能力和训练速度快等

学位

RBF网络人工免疫原理机器学习预测模型盾构工程

肺动脉血栓栓塞的临床特点及危险因素分析

目的分析肺动脉血栓栓塞的临床特点及危险因素.方法选取我院2019年1月至2020年1月收治的39例肺动脉血栓栓塞进行研究,分为观察组,另选取39例平原地区患者进行研究对比,分为

期刊

肺动脉血栓栓塞临床特点危险因素分析

VTK技术在三维医学图像处理中的应用研究

本论文将在对VTK(The Visualization Toolkit，可视化工具包)进行分析的基础上探讨并行可视化技术在医学图像处理中的应用。研究结束后所取得的成果将能够为数字图像处理项目的

学位

医学图像处理VTK并行可视化渲染

ICS平台集成开发与可视化建模工具的设计与实现

中国加入世贸组织后,我国银行的许多传统优势将面临着更为严峻的挑战,面对内外强大压力,建设一个集中统一的全国性的数据集中处理环境,实现银行全国性数据大集中,既是我国银

学位

ICSXML集成开发工具可视化建模

探讨口腔科联合消化内科提高牙周病的治疗效果

目的研究根除胃内幽门螺杆菌(Hp)感染能否提高口腔牙周病的治疗效果.方法从2018年1月至2020年1月前来四川省科学城医院口腔科、消化内科就诊患有牙周病合并存在胃内幽门螺

期刊

牙周病幽门螺杆菌(Hp)口腔科消化内科

基于OpenCV的视频监控系统设计与实现

视频监控系统是银行安全防范系统的一个重要组成部分,其集成了计算机技术、网络技术、通信技术以及多媒体技术等,是当前的热点研究领域。随着银行业各种暴力及恐怖事件的发生

学位

视频监控OpenCV库函数H.264标准格式C/S软件架构

有界多态会话类型系统的研究

网络技术和Web服务技术的广泛应用,推动和促进了并行分布式计算的快速发展。并行分布式计算的主要特征包括并发性、分布性、实时性,具有这些复杂特征的并行分布式系统面临着

学位

Pi-演算会话类型有界多态性类型指派规则Delegation主体归约类型安全

以路径为中心的大规模图数据处理系统

其他学术论文