日志大数据索引与查询方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:ddp100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
日志是反映系统运行状态和用户行为的重要数据,面对海量异构的日志数据,如何提供可靠的存储以及高效快速的查询以支持日志分析工作,是当前迫切需要解决的问题。HBase与Hadoop软件栈结合紧密,在存储和处理非结构化和半结构化数据方面能力强大,非常适合于日志的应用场景。但HBase只在主键上建立了索引,而在日志查询中常常涉及到非主键列,因此有必要优化HBase的非主键查询性能。日志数据二级索引的基本思想是将非主键列值到原始数据地址的映射冗余到索引记录的主键中,这样在根据非主键列值进行查询时可以快速定位到原始数据从而避免慢速的全表扫描。索引的静态构建通过MapReduce作业进行,当新的日志数据追加到表中或者Region发生分裂时则通过HBase协处理器实现索引的同步过程,以确保数据的一致性。为了更方便地利用二级索引,对日志查询的各种模式进行抽象和建模,设计了一套易于使用的查询API。客户端向RegionServer发起日志查询请求,它会委派一个查询解析器解析查询条件并执行具体的查找过程,此过程通过在所有RegionServer上并行执行加速。针对日志查询过程中的80/20的分布特征,将热点索引缓存到内存中,并提出了能感知数据热度的累积热度缓存替换策略,从而进一步优化日志的数据查询过程。以四台服务器组成的集群为测试平台,通过缓存替换策略对比实验、查询性能对比验证了累积热度缓存替换策略的有效性以及二级索引系统面向日志查询时的性能提升。通过索引构建的时、空间开销分析说明了二级索引的代价较低。
其他文献
蛋白质-蛋白质相互作用(protein-protein interaction,PPI)几乎调控一切生命活动,比如生长、发育和凋亡。近年来发展的双分子荧光互补(bimolecular fluorescencecomplementat
近些年来伴随低排电力交通工具的开发和便携式电子产品的使用,研究者们为此尝试研发出新型高比能量的电池以适应日益增长的需求。锌/空气电池应运而生,由于锌/空气电池的正极
本课题在中温条件下,以玉米秸秆为原料进行了微氧发酵制氢的研究。在150mL厌氧瓶小试实验中,通过控制产氢过程中的进氧量对产氢的最佳微氧环境进行了探索;放大实验是将小试实
目前心血管疾病已经是人类第一大疾病,呼吸道疾病也成为严重威胁人类健康疾病之一。听诊器是临床诊断这两类疾病最常用的医疗器械,但传统的听诊器精度低,且无法保存声音信号,听诊过程依赖医生的主观经验,主观性强,国外高端电子听诊器价格昂贵且无法解决心肺音相互干扰这一关键问题,不能自动提取心音病理特征以辅助临床诊断。为了克服该困难,本文利用了非负矩阵分解和卷积非负矩阵分解,提出了两种心肺音分离方法并研究设计出
蛋氨酸(Met)作为唯一含硫的骨架氨基酸,广泛运用于饲料、食品、医药及化妆品等领域。目前,Met的生产方法主要有化学法。本文主要以2-氨基-4-甲硫基丁腈为底物,采用生物催化生
以泸州主城区某地下停车场为例,介绍FQY高性能膨胀剂结构自防水技术在泸州主城区某地下停车场的应用,混凝土结构自防水是综合的系统工程,必须在设计、材料、施工等环节,综合
随着中国基础设施建设的脚步不断加快,对工程建设效率的要求也越来越高。BIM(建筑信息模型)作为贯通工程建设全生命周期的技术工具,为提高建设效率,节约工程成本提供了一种有效的思路。现阶段对于滑坡工程地质勘查仍没有深度支持的BIM软件。基于这种情况,本文以Autodesk公司旗下的Civil 3D软件为平台,二次开发以克里金插值法为核心的三维地质建模模块和以SQL数据库为核心的工程勘查管理模块。建立了
近年来,随着信息技术的飞速发展以及人们对互联网的不断依赖,宽带接入网已成为一项重要的社会基础设施。由此催生的三网融合正在全国范围内如火如荼的进行。面对日益激烈的竞争环境,天津广电也在顺应潮流不断转型升级,寻求新的组网方式来满足未来大信息量的数据传输要求,FTTH(光纤到户)技术的出现为其指明了发展方向。FTTH技术不仅具有高带宽、抗干扰能力强、运行稳定等特点,而且具有灵活的组网能力,使得在组网建设
水质预测是水环境污染防治的重要方面,利用长期大量收集的水质监测数据就可以对水质污染趋势进行预测,这对水环境的管理和规划具有重要意义。针对如何及时有效地预测水质这一问题,本研究提出一种整合的水质预测模型,这一模型可以基于历史的水质监测数据预测未来一段时间多个时刻的水质状况,为水资源的有效调控与管理提供预先的数据指导。本研究所做的贡献主要体现在两个方面,包括对水质数据的预处理和提出采用基于注意力机制的
禽流感(Avian influenza,AI)是由禽流感病毒(Avian influenza Virus,AIV)感染多种动物的一种急性高度接触性传染病。NA是禽流感病毒粒子表面的重要抗原,在病毒复制过程中发挥