HBase支持图数据的存储与查询

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:lucieming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近几年,随着互联网业务的发展,图被用来描述许多复杂数据对象和其在真实世界中的关系,在社交网络、电子商务、搜索引擎等邻域得到广泛应用。在其他科学领域包括化学结构、计算机视觉、生物工程等所使用的数据集都可以用图结构来描述,因此图计算越来越受到业界的重视。但是随着业务的发展和用户数据的积累,图数据的规模也越来越大。为了存储这些规模庞大的数据,进而更好的进行数据挖掘,从而利用数据创造价值并且为用户提供更好的服务,业界在数据存储和计算等领域进行了深入的理论研究和工程实践。谷歌在一系列的论文中阐述了其大数据基础设施GFS、BigTable等的实现思路,作为其开源的实现项目Hadoop和HBase也受到了工业界的重视,被越来越多的公司用来存储日益庞大的用户数据。这些基础设施能够有效存储文件和非结构化数据,但是对于图数据这样的具有强耦合关系的数据,尤其是在超大规模的情况下,如何存储和查询成了一个关键问题。面对此问题,本文研究了 HDFS分布式文件系统和HBase分布式数据库以及Spark图计算引擎,基于HBase设计了一个图数据的存储和查询系统G-HBase。该系统通过图的分割算法,将大规模的图分割成多个点文件和多个边文件,使用HDFS作为底层存储保证了数据的高可用性和存储容量的可伸缩性,使用HBase建立索引,实现数据的快速查找。G-HBase针对点和边的存储和检索提供属性和时间上的管理,能够有效地支撑图计算引擎的提取和存储。该系统拥有良好的API接口,能够和Spark图计算引擎无缝集成,为数据工程师提供良好的操作环境,减小数据管理上的成本,提高工作效率。相比于开源的数据仓库管理系统,例如Hive,G-HBase对图数据有更加针对性的设计。最后本文对该系统做了性能上的测试,实验结果证实该系统在范围查询等数据检索上要优于业界的一些方案。
其他文献
随着互联网用户数量的增长和社交媒体平台的高速发展,互联网上的web页面也出现了爆发式增长的情况。人们通过智能终端在社交平台上交流娱乐的同时,也产生了大量的文本数据,如
本文基于2005-2007年中国对外投资、出口和规模以上工业企业特征的综合数据库,基于投资与出口再平衡视角,实证检验了对外投资与出口对我国企业创新绩效的东道国效应,并进一步
研究背景及目的在过去的二十年中,非小细胞肺癌(NSCLC)的治疗取得了重要进展。表皮生长因子酪氨酸激酶抑制剂(EGFR-TKIs)为表皮生长因子(EGFR)突变患者的生存带来空前益处。FLAURA研究的最新数据显示,奥希替尼一线治疗晚期EGFR突变患者效果惊人。但是,随着药物的广泛长时应用,耐药问题愈发不容忽视。本研究旨在通过对奥希替尼获得性耐药的非小细胞癌进行一系列实验,探讨奥希替尼获得性耐药中
随着数字化信息时代的到来,在线社交网络服务得到了快速发展。网络信息爆炸式地增长,用户很难高效地在海量信息中寻找对自己有用的信息。因此,个性化推荐系统应运而生,基于社
为了解我国当前满族珍珠球运动的竞技水平和发展现状,通过专家访谈法、数理统计法、影像分析等方法,对全国第九届少数民族运动会满族珍珠球项目比赛情况进行总结和分析。结果
将图像传感器的视觉信息与惯导组合可以构建具有高自主性,高精度的导航系统。目前,寻找兼顾精度和实时性的图像匹配算法,稳定的信息融合算法是该组合系统的研究热点。本文针
不同于一般的资产证券化,PPP资产证券化具有其独特的风险,原始权益人对PPP项目的实际运营情况直接影响项目的现金流稳定性,PPP项目本身结构复杂导致各方信息获取量差异的扩大化。内部交易结构无法消解全部风险,而现有的风险监管法律制度尚不完善,这样一来便为原始权益人等参与主体的违法套利行为提供了空间。PPP资产证券化风险的法律监管包括PPP和资产证券化两大领域。我国亦出台了相关政策规范资产证券化在PP
本文以基于数据为中心的系统架构设计思想为核心,面向未来体系作战条件下航电系统应用需求,提出一种集成AI的智能化航电系统架构设计方法,通过基于元模型的航电系统架构设计
二氧化碳(CO2)的催化转化是二氧化碳化学固定和利用的重要研究内容。构建既稳定又高效的催化体系是实现CO2催化转化的关键科学问题。共价有机框架(Covalent Organic Frameworks,
目前,我国的官员财产申报、审计采用手工方式进行,申报资料多以纸质文件存储、传递。然而随着我国技术的迅速发展及相应设施的普及,运用信息技术,搭建网络系统,协助反腐倡廉