海量数据环境下的快速检索与查询

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:xpzcz1990
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,大数据领域的应用和技术层出不穷。企业面临来自这个领域的诸多挑战,它们需要充分地了解并利用新技术来提高自身的竞争力,使海量数据所带来的价值最大化。在众多企业数据分析需求中,快速检索与查询(或称交互式分析)是日益受重视的一种分析类型,它为企业提供了高效的分析,缩短了决策周期,节省了时间成本。面向这种分析类型的技术在不断发展,业界开始出现较为成熟的解决方案,也有一些新兴的技术从不同的角度考虑问题,使得它们在针对特定的分析类型时有更好的表现。本文主要从面向结构化数据的快速查询和面向半/非结构化数据的快速查询两个方面来研究或实现解决方案。前者包括SQL-on-Hadoop和MOLAP引擎Kylin,后者包括基于HBase二级索引的查询系统和基于HDFS随机访问的查询系统。对于这四种技术方向,本文分别描述了它们的实现原理,分析了它们的性能表现,并在一定程度上对它们做了性能优化,并展示了优化的效果。从结果上可以知道,在主流的SQL-on-Hadoop解决方案中,Cloudera公司的Impala性能表现最佳,其次为SparkSQL。利用合理的数据压缩格式Snappy和列存储格式Parquet能极大提高查询效率,另外通过设置缓冲区的方法也能提高二者的性能表现。而对于MOLAP引擎Kylin来说,因为其利用离线计算的方法,用数据的延迟为代价换取了查询速度,在决策支持类查询中表现优异,较SQL-on-Hadoop等在线计算的查询系统更佳。另外,基于HBase二级索引/HDFS随机访问的查询系统提供了对整行数据的快速查询,二者在查询符合某种条件的多行数据时较SQL-on-Hadoop/Kylin有更优异的表现(因为它们提供了索引)。二者的主要差别在于基于HBase二级索引的查询系统有较低的数据时延,但因为被查询数据需要存储在HBase中,造成不必要的数据冗余;而基于HDFS随机访问的查询系统则有更大的数据时延,但却因为无需将数据存储在HBase中而节省了大量的存储空间。
其他文献
<正> 过去我们都用鹅毛移虫针和弹簧牛角片移虫针移虫。由于鹅毛管移虫针带浆少,幼虫接受率差,对初学养蜂者或视力减退的养蜂员感到退虫困难、速度慢。弹簧牛角片移虫针虽克
期刊
<正>直线倾斜角和斜率是解析几何的重要概念之一,是刻画直线倾斜程度的几何要素与代数表示,是平面直角坐标系内以坐标法(解析法)的方式来研究直线及其几何性质(如直线位置关
目的通过对大咯血病例治疗分析及总结,探讨大咯血治疗方法的选择。方法根据患者临床症状及相关检查,常规给予蛇毒血凝酶、垂体后叶素、酚磺乙胺等药物治疗。若仍间断反复咯血
对影响速食南瓜粉生产的加工工艺主要因素、漂烫、干燥、配方的调配等进行试验研究。结果表明以0.1%柠檬酸溶液+0.1%抗坏血酸溶液作为媒介对南瓜进行漂烫,温度为95℃、漂烫时
为芸香科植物吴茱萸、石虎或疏毛吴茱萸的干燥近成熟果实,其药用部位以果实为主,根、叶亦可入药,生物碱类是吴茱萸中主要活性成分,具有明显的药理活性,本文拟对吴茱萸的中生
政府购买公共服务是改善公共服务提供方式,满足社会公众对多元化服务需求的重要手段。近年来,一方面,受人力、物力、条件限制,诸项公共服务急待提质,另一方面,部分居民群众觉
发展了一个简单、高效合成3-取代苯并呋喃类化合物的方法.该方法是利用邻溴芳基苯丙烯基醚的分子内Heck反应实现的,简单的钯纳米粒子催化体系对该分子内Heck反应表现出了很高
构建抗猪流行性腹泻病毒(PEDV)噬菌体单链抗体库,筛选鉴定抗猪流行性腹泻病毒的单链抗体。用猪流行性腹泻疫苗免疫发病耐过的猪,3次免疫后采血,分离淋巴细胞,提取淋巴细胞的
多酚是植物体内复杂的酚类次生代谢产物,具有多元酚结构,主要存在于植物的皮、根、叶、壳及果肉中。本文从蓝莓多酚的萃取、提纯、成分及功能性四个方面介绍了目前国内外对蓝
<正>在新中国成立70周年之际,江北区五里店街道办事处荣获崇高的政治荣誉,被评为全国民族团结进步模范集体。我代表街道参加全国民族团结进步表彰大会,因此,有幸观礼国庆盛典