基于MapReduce的日志关联分析研究与实现

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:jinke1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云计算是近年来的热门话题,兴起了IT产业对服务使用方式的变革,越来越多的组织和个人使用云计算来部署自己的应用,开发自己的平台。云计算厂商的将更多的时间放在了虚拟化、负载均衡和存储上,但对于日志分析平台资源投入却很有限,因此相比原来的物理服务器部署,也带来了更多的安全隐患。本文在现有的研究工作的基础上,开展了云计算场景下的日志分析工作,主要研究内容如下:(1)提出一种基于事件滑动窗口的告警关联挖掘算法。云场景中部署了若干的物理主机和虚拟主机,每个节点收集到的告警日志汇集起来是海量的,因此如何从这些海量的告警日志中,提取关联的告警,并组成告警序列,画出攻击图重现攻击场景是首要的任务。将现有的序列模式挖掘算法应用到告警序列的挖掘中,不仅低效,而且会挖掘出很多的无意义的频繁序列模式,大大降低了正确率。因此,本文在其他现有告警关联的基础上,提出一种基于事件滑动窗口的告警关联挖掘算法,并利用MapReduce完成并行化,能够提高挖掘的速率,在海量日志的挖掘中性能优异,解决传统模式的不足。(2)提出一种基于访问流的属性关联DDoS攻击拦截模型。目前对云计算中主机的攻击,主要为DDoS攻击,由于节点众多,且攻击方式多变,需要一种有效的、动态的策略来增强防火墙抵御能力。现有的基于属性关联的置信度打分策略,通过对流量日志的分析,构建一种数据包打分策略,来过滤危险数据包。相比于原有的针对传输层和网络层的DDoS攻击,云计算场景中的应用层攻击在DDoS攻击中占有了很大一部分,因此原有的方法并不能很好拦截数据包。本文在现有工作的基础上,利用会话识别技术,提出了访问流策略,并在MapReduce上完成,能够解决现有方式的不足,提高对HTTP-DDoS的识别率。(3)针对多源异构的海量日志,设计并实现了统一日志收集与分析平台。此平台包括开发日志收集、日志实时分析、日志离线分析和模型构建等方案。将算法模型部署到系统后,都能达到预期的效果,具有较高的研究价值。
其他文献
随着大数据时代的到来,传统的技术已经无法满足日益增长的存储需求,分布式存储技术应运而生。HDFS是Apache开发的云计算平台Hadoop的分布式存储系统,可以运行在大规模廉价的
随着互联网的快速发展,计算机软件的运行环境逐渐开放化,软件动态演化已经成为软件工程领域的研究热点之一。面向方面编程(AOP)是一种新兴的编程技术,其关注点分离技术能较好
随着互联网的各种应用在生活中的普及度逐渐提高,全球数据量呈指数级别的增长。根据互联网数据中心的调查显示,早在2011年全球数据量已突破2万亿GB。IBM副总裁在2016年的闪存
随着网页信息量越来越大,采用通用搜索引擎搜索某一个方面的信息时覆盖率和准确率低,回馈的内容不够详细,噪音过多,维护庞大的网页索引库特别困难,在信息的采集和存储面临着
目标反射光在湍流的大气中传播,传播过程中受到随机的干扰,其折射率随时间和空间变化而随机变化,光的传播方向和相位发生抖动,这使成像焦平面产生像点强度随机起伏,强度分布
随着信息技术的发展,数据挖掘技术得到了广泛的关注。在很多研究领域中,关联规则挖掘是数据挖掘中比较重要和活跃的研究方法之一,对它进行深入研究不仅有重要的理论意义,而且
P2P是近年来互联网最热门的技术之一,在VoIP、文件下载、流媒体、协调计算等领域得到飞速发展。P2P应用对网络带宽资源消耗巨大,据统计P2P业务的带宽占用比率大致是40%~60%,在极端
多智能体系统的理论和应用,是人工智能领域重要的研究方向。在本文中,我们将对多智能体系统的构建与分析两个方面进行研究。首先,阐述和讨论了一个多智能体系统的开发方法,并以此
随着生物医学领域文献的爆炸性增长,从生物医学文献中自动获取生物医学知识已经成为生物信息学研究的重要领域。由于蛋白质相互作用关系对于生命科学有着特殊的重要意义,因而
伴随着世界各国汽车数量的增加,城市交通状况日益受到人们的重视。智能交通系统也成为人们研究的热点,车牌识别系统是智能交通系统的一个重要组成部分,它的成功开发必将大大