一种基于HIVE和分布式集群的大量数据高效处理方法研究

来源 :中国电子科学研究院学报 | 被引量 : 0次 | 上传用户:wanxlm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了对海量电子日志数据进行有效处理,提出一种基于HIVE和分布式集群的综合解决方案。首先,从需求分析出发,阐述了分布式集群搭建、虚拟机的Flume配置和HIVE数据处理;然后,进行数据采集和清洗、业务逻辑处理及优化、数据合并与查询。实验以统计分析网站访问排名为例,对具体的表结构和实施过程进行描述,并验证其可行性。结果表明:与其他框架相比,所提大数据综合处理方法在数据采集和日志处理方面更效率,且省去了处理业务逻辑的大量Java代码,可用性更佳。
其他文献
本文探讨了褪色剂对棉/再生纤维素纤维混纺产品定量分析的影响。用保险粉和次氯酸钠两种褪色剂对棉/粘胶、棉/莫代尔和棉/莱赛尔3种经还原染料或活性染料染色的深色混纺牛仔
近10年,美国婴儿死亡率(IMR)降低速度减慢,婴儿死亡的模式发生转变,出生体重特异死亡率有所上升。低出生体重(LBW<2500克)是婴儿尤其是新生儿死亡的主要原因,降低低体重儿出生率是美国降低婴儿死亡
根据全球商业信息公司纺织情报期刊《纺织展望国际》报告,几家创新的初创公司最近在开发纺织和服装废料中的纤维素纤维方面取得了巨大的进展,其中回收的一些纤维素纤维有望在
分析了当前机载任务系统装备产品的研制生产特征,引申到大型军事电子信息装备产品,提出了总体单位产品工艺工作的内容和方法,论述了必要性和重要性,最后阐明了围绕产品,工艺
针对丝光绵羊毛因为受到多种化学试剂处理,表面鳞片在酸性环境中长时间试验,容易受损影响测试结果的问题,本文结合前期试验探索,选择浓盐酸法进行丝光绵羊毛/桑蚕丝混纺纱线
为满足人们的健康防护需求,抗菌、抗病毒功能性纺织品发展欣欣向荣,但不少人将抗菌纺织品和抗病毒纺织品混为一谈。抗菌纺织品和抗病毒纺织品的概念、发展并不相同,其抗菌性
妊娠前期缺铁性贫血(IDA)是妊娠期最常见的贫血形式,严重危害孕妇及胎儿健康,妊娠早期IDA可增加早产及低出生体重的发生率,血清铁蛋白及转铁蛋白受体是诊断妊娠期IDA的可靠指标,本文对妊娠期
遗传因素在肥胖症发生中的受到越来越多的重视。作为一种复杂的基因表型,肥胖的确表现出十分复杂的遗传现象。BMI、皮褶厚度、局部脂肪分布、热量摄入、代谢率和热量消耗、休息时
本文描述了影响乙肝疫苗接种后无(弱)应答者发生的诸多原因及其影响因素(如接种者自身因素和环境因素等);同时重点对遗传流行病学,免疫学及分子生物学方面的研究进展加以为提高HB疫苗
服装是一种消费品,它有着大量的分散供应链。它从纤维选择开始,进入纱线和织物生产,并在服装制造完成后推入市场而结束。在许多情况下,还有其他部门参与完成最终产品,其中包