基于HBase的日志异常分析与相关算法研究

来源 :电子科技大学 | 被引量 : 8次 | 上传用户:QHP925
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前针对网络外部的入侵攻击已有相对完善的防护措施,但针对来自系统内部的用户威胁则缺乏针对性的措施。尤其在国防、公安、金融等领域,来自系统内部的越权访问、信息窃取、秘密泄露等问题成为相关领域安全工作的重要威胁。日志可将系统中发生的事件进行完整记录,可用来对系统内部安全状况进行分析评估。当前业界针对日志分析的研究大多是基于专家系统的安全审计技术,可对小规模的异常行为进行分析,但这种技术在海量数据处理和隐藏的关联关系挖掘方面显得力不从心。本文研究的目的是将数据挖掘技术和分布式计算技术结合起来,实现对海量日志数据的收集、存储和分析处理,挖掘日志信息中的潜在规律,用于发现系统安全漏洞和内部用户异常行为,弥补传统专家系统的不足。论文分析了分布式计算平台Hadoop和No SQL数据库在海量数据处理方面的优势,对当前常用的数据挖掘技术和日志异常分析方法进行了系统研究,针对本文分析的日志特征和研究目的选择了关联规则挖掘经典算法Apriori作为基本算法进行了深入研究。针对Apriori算法运行过程中每一轮计算都要扫描整个数据库和连接生成候选频繁项集数量过多的问题,通过将原始的水平数据结构转换为数据项和事务ID垂直对应的数据结构实现对算法的改进,同时在数据转换时对数据存储格式进行了分类标识,有效减少了候选频繁项集数量,提高了算法运行效率。论文设计实现了基于Hadoop分布式计算平台和HBase存储系统的日志分析框架原型,包含分布式日志采集与处理、海量数据存储、日志规则挖掘、异常行为发现等功能,通过基于属性特征、基于时间和位置限定、基于数理统计模式的三种类型的规则匹配,帮助系统安全管理人员更加及时准确地发现系统内部用户异常行为。通过在实验平台上的测试,改进的算法在日志数据挖掘上的效率比传统的Apriori算法提高了大约20%。
其他文献
随着经济的高速发展,良好的企业内部管理是企业竞争力强弱的重要因素之一。因此,对企业各部门工作进行评价已经成为企业的重要工作。论文将BP神经网络技术应用于企业评价预测,在
随着计算机技术和人工智能技术的发展,组卷问题的研究受到越来越广泛的关注。智能组卷问题是一个在一定约束条件下的多目标参数优化问题,组卷的效率和质量完全取决于试题库以
随着全球电视数字化时代的到来,我国现在正在大力推进数字电视的普及和应用。数字电视的交互性赋予了它许多功能,电子节目指南(EPG)是数字电视的基本业务之一,它是实现用户友
随着嵌入式软件的广泛应用,嵌入式软件的结构和开发技术日新月异,相对于硬件的日益稳定,软件故障却经常出现。为了保证软件的质量,需要对软件进行测试。由于嵌入式软件的自身
云计算作为一种新型的计算模式为计算、存储提供了一种新的解决方式。外包计算模型随着云计算的发展而因运而生,一个计算能力较弱的用户将复杂的计算外包到云服务器,云服务器
随着Internet的发展,越来越多的单点到多点的数据传输应用应运而生。组播比传统的单播和广播协议更适合这种一对多的数据传输。传统的组播虽然具有网络利用率高、能节省发送
车间作业调度是典型的NP难题。由于车间作业调度问题在组合优化方面的复杂性,直接影响着生产效率的提高和获取利润的大小,因此,车间作业调度的研究和应用,对于企业提高管理水
XML的全称是Extensible Markup Language(可扩展标识语言)由于具有简单、可扩展、互操作性强,开放性强等特点,正迅速成为一种与技术无关的数据交换的标准和传输格式,并逐渐成
随着网络技术的迅速发展和J2EE平台的广泛应用,基于B/S的多层Web体系结构正在不断的发展完善,并逐渐成为Web应用开发的主流。但是,在现有的Web应用系统中,普遍存在着程序可重
涉及国家安全的各种秘密信息,直接关系到国家的安全利益和社会的稳定。国家机密信息一旦被窃取或破坏,将对国家造成不可估量的损失。在信息安全攻防技术发展到了较高水平的今