基于Hadoop的证据保全系统的研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:tttde123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和移动互联网的飞速发展,数据已经呈现出指数级增长的态势。面对海量数据带来的挑战,国内外各大互联网公司纷纷将云计算的概念应用到商业服务中,并推出了各自的云服务。云服务是将各种计算资源和商业应用程序以互联网为基础提供给用户的服务,这些服务将数据的处理过程从个人计算机或服务器转移到互联网的数据中心,从而减少用户在硬件、软件和专业技能方面的投资。目前云服务已经被广泛应用到各个商业场景中,并发展成为一个非常成熟的商业服务模式。本文基于Hadoop,主要完成以下工作:1,设计并实现针对于云服务的证据保全系统。证据保全系统主要实现以下功能:首先在云服务商与用户之间架设网关服务器,根据云服务商指定的过滤条件获取所有用户对于指定的云服务API的HTTP请求,并提取出用户特征信息。用户特征信息主要包括:用户名称、用户发起请求的时间、用户所在地域、用户请求的云服务API以及云服务API的参数。然后网关将用户特征信息导入到数据分析系统,数据分析系统将按照云服务商指定的数据分析条件对用户特征信息进行分析,分析结果将以报表的形式展示给云服务商,最后数据分析系统将根据云服务商指定的归档条件将用户特征信息归档到存储系统以永久保存。考虑到云服务商的用户基数巨大,证据保全系统所要处理的数据量预计将维持在PB级别,因此证据保全系统将采用云计算平台Hadoop作为数据分析系统和存储系统的底层实现。2,证据保全系统定期根据多种归档条件将用户特征信息归档存储在HDFS(Hadoop分布式文件系统)中。归档操作根据不同的归档条件将用户特征信息划分成大量文件,其中既存在大量文件长度在GB级的大文件,也存在大量KB级的小文件。而HDFS是针对大文件存储而设计的,大量小文件的存储将导致HDFS集群整体性能降低。因此,本文将通过仔细阅读Hadoop源码,分析导致HDFS存储大量小文件后性能降低的原因,并在此基础上提出HDFS客户端聚合索引策略,在客户端对小文件进行聚合并建立索引,以实现对HDFS小文件存储的优化。
其他文献
空间延迟容忍网络(Delay Tolerant Network,DTN)与地面有线网络存在着巨大差异:地面有线网络链路传输时延小,误码率低,TCP/IP协议中的传统拥塞控制算法能够得到良好地应用;而
电子商务的迅速发展给人们的生活提供了更加丰富的选择,但也使得服务信息呈现“超载”趋势,推荐系统是过滤信息的重要手段,是解决信息超载卓有成效的方法。然而由于系统本身
随着时代的不断变化,虚拟现实技术的要求也越来越高,从2D技术逐步完善至3D仿真技术,对自然景物的模拟也紧跟着对我们提出更高的挑战。从地面虚拟现实变化到海洋的虚拟现实,从
随着“信息爆炸”时代的来临,数据挖掘的应用日趋广泛。许多商业决策者利用数据挖掘技术从海量的数据中获取有用的信息,为以后企业更好的决策提供帮助。然而,传统的数据挖掘
随着计算机网络应用的普及,它提供的信息交换、资源共享、分布式处理等服务极大地方便了人们对信息的需求。然而人们在享受这些方便的同时,网络安全问题也越来越成为关注的焦
进入二十一世纪以来,社会高速的信息化和数字化,人们每时每刻都在产生不可估量的数据。在存储这些数据的时候,需要消耗大量的物理存储空间和网络带宽,且存储管理的成本会随着
由于国际互联网的快速普及,越来越多的工作付诸于网络,越来越多的生活离不开网络,越来越多的学习需要网络,网络无处不在,网络无时不在。Web操作系统是一个全新的、开放的、公
在现实世界中刚体破碎是一个混沌系统。刚体破碎特效模拟最终效果受材质、受力点以及受力方向影响。材质、受力点以及受力方向三者只要有一个变化,最终得到的破碎效果就完全
目标追踪的研究是计算机视觉领域中一个重要的研究分支与基本问题,也是行为识别、运动分析等众多高层应用的重要基础,也能为智能监控、人机交互、交通运输管理、医学图像处理
基于图像的三维重建是国内外数字媒体领域研究的重点,获得高效且适应性强的三维重建方法是图像研究人员的目标。现在已有的基于图像的三维重建方法按照图像数量分为单图三维