基于海量WEB日志的网络恶意行为分析系统设计与实现

被引量 : 9次 | 上传用户:mahonglin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和Internet的飞速发展,各种基于WEB的网络应用层出不穷,WEB用户数量也迅猛膨胀。然而,各种各样的WEB应用给人们的学习、工作和生活带来方便的同时也将人们的隐私和生活暴露在互联网上。由于WEB应用的广泛性,木马、僵尸网络、APT活动等常常利用其实施网络渗透、入侵与控制等恶意行为,或者实施大范围的DDOS攻击,严重威胁网络用户的信息和财产安全。如何从海量的WEB日志中分析发现可疑的恶意网络行为具有重要意义。目前来看,如何构建一个海量WEB日志分析挖掘系统并真正应用到网络安全实践中,面临如下挑战。首先,WEB日志数据项复杂,不同的WEB站点记录的WEB日志在格式、字段、规范性等方面存在较大差异,不利于后续的统一分析挖掘。其次,WEB日志记录中一个很重要的数据项是URL,即访问WEB站点的路径。如何设计高效的URL检测模块,准确并及时的发现恶意链接、SQL注入及XSS跨站脚本的存在,是值得深入研究的问题。此外,对于海量日志的处理来讲,分析挖掘才是最终面临的问题。如何构建实用的海量数据分析平台,并设计合理的挖掘算法来发现可疑网络恶意行为,是要解决的关键问题。本文设计并实现了一套完整的WEB日志挖掘系统用于真实网络环境中的恶意行为发现。首先与某网络内容提供商(ICP)合作,获取ICP的海量WEB日志;在此基础上,设计并实现一套原型系统,对藏匿于海量WEB日志中的恶意用户及恶意行为进行分析挖掘。已完成的主要工作包括:(1)在WEB日志的差异化处理方面,设计并实现WEB日志预处理模块,去除错误冗余数据,并将日志格式规范化,增强了系统通用性。WEB日志预处理模块主要分为数据清洗、用户识别及会话识别三方面。(2)在URL检测方面,设计并实现URL检测模块。利用开源项目libinjection对SQL注入及XSS跨站脚本进行检测,同时也将利用已收集的公开URL数据集对恶意链接进行扫描。(3)在海量日志的分析挖掘方面,基于Spark高性能数据分析平台对会话日志进行会话测量、统计和关联挖掘,发现隐藏其中的恶意行为。首先测量同一用户相邻WEB日志记录间隔时间分布,从而确定区分相同用户不同会话的超时时间。随后将分别以用户、客户端IP、客户端所在B段或C段为统计对象,做一系列统计分析。找出特定用户与特定地域、特定时间、特定页面等要素之间的内在联系。最终综合计算判定恶意用户及恶意行为。
其他文献
本文介绍了一种锁相环中的动态匹配电荷泵。该电荷泵能有效抑制传统电荷泵中电流的失配和漂移。降低电流失配有利于减小锁相环的参考杂散,而抑制电流漂移能避免锁相环的带宽
近三十来,聚合物太阳电池(PSCs)由于在通过旋涂或喷墨打印等湿法加工制备重量轻、大面积、柔性的光电转换器件等方面具有广泛的应用前景,引起了学术界和工业界持续而广泛的关
本文以滇西兰坪盆地古近纪沉积充填为研究对象,利用岩石学、沉积学、沉积地球化学等理论知识,综合前人研究的地质成果,通过对盆地不同剖面古近纪砂岩样品的碎屑成分特征、地
回顾2014年的互联网安全大事记,以年初的央视新闻频道曝光的全球首个手机木马“不死木马”为起始,到年中“七夕”左右的一款名为“XX神器”的安卓系统蠕虫病毒在全国范围蔓延
目的:探讨早期康复护理对进展性卒中患者神经功能及日常生活能力的影响。方法:连续选取2017年1-6月在我院住院的进展性卒中患者110例,分为常规护理组及早期康复护理组,常规护
相山矿田邹家山铀矿床围岩蚀变广泛发育,对其进行系统的研究,有利于矿体的揭露、了解含铀热液的性质以及铀的迁移沉淀机理等,具有重要的理论和实践意义。本文在收集整理并分
新一代光源LED(light emitting diode)在光效、控制等方面优于传统光源,在室内照明、智能设备等应用具有越来越明显的优势。此外,本世纪初发现的本征感光视网膜神经节细胞(in
20世纪中期以来,伴随市场化、工业化和城市化进程的不断加快,现代城市的发展日益受到土地、能源、空间以及清洁水等资源短缺的严重影响和制约,人口膨胀、环境恶化、交通拥堵
一年前,中国移动发布了4G宏伟蓝图,正式开启了4G全产业链的盛宴。截至目前,4G用户已达800万,4G城区覆盖率达到100%。随着电信业重组及4G带来了通信行业新的竞争格局,国内TD-L
软骨组织是人体内重要的支撑结缔组织,是骨关节、气管、耳廓、鼻等器官的重要组成部份。临床上因先天性疾患、创伤、炎症或肿瘤引起的各种软骨缺损较为常见。在其修复中往往受