论文部分内容阅读
当前针对网络外部的入侵攻击已有相对完善的防护措施,但针对来自系统内部的用户威胁则缺乏针对性的措施。尤其在国防、公安、金融等领域,来自系统内部的越权访问、信息窃取、秘密泄露等问题成为相关领域安全工作的重要威胁。日志可将系统中发生的事件进行完整记录,可用来对系统内部安全状况进行分析评估。当前业界针对日志分析的研究大多是基于专家系统的安全审计技术,可对小规模的异常行为进行分析,但这种技术在海量数据处理和隐藏的关联关系挖掘方面显得力不从心。本文研究的目的是将数据挖掘技术和分布式计算技术结合起来,实现对海量日志数据的收集、存储和分析处理,挖掘日志信息中的潜在规律,用于发现系统安全漏洞和内部用户异常行为,弥补传统专家系统的不足。论文分析了分布式计算平台Hadoop和No SQL数据库在海量数据处理方面的优势,对当前常用的数据挖掘技术和日志异常分析方法进行了系统研究,针对本文分析的日志特征和研究目的选择了关联规则挖掘经典算法Apriori作为基本算法进行了深入研究。针对Apriori算法运行过程中每一轮计算都要扫描整个数据库和连接生成候选频繁项集数量过多的问题,通过将原始的水平数据结构转换为数据项和事务ID垂直对应的数据结构实现对算法的改进,同时在数据转换时对数据存储格式进行了分类标识,有效减少了候选频繁项集数量,提高了算法运行效率。论文设计实现了基于Hadoop分布式计算平台和HBase存储系统的日志分析框架原型,包含分布式日志采集与处理、海量数据存储、日志规则挖掘、异常行为发现等功能,通过基于属性特征、基于时间和位置限定、基于数理统计模式的三种类型的规则匹配,帮助系统安全管理人员更加及时准确地发现系统内部用户异常行为。通过在实验平台上的测试,改进的算法在日志数据挖掘上的效率比传统的Apriori算法提高了大约20%。