Web异常检测系统的设计与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:youthboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的日益普及和网页技术的迅猛发展,人们在享受网页信息带来的便捷的同时,异常网页攻击也在无孔不入地侵蚀着人们的隐私和财产安全。近些年来,异常网页的破坏力越来越大,隐蔽性越来越强,方式也越来越多样化,而对于异常网页的识别也变得越来越难。普通用户往往很难判断网页是否存在异常,现有的Web异常检测方法往往也不能很好地检测出多种类型的异常网页和新型的异常网页,特征提取是检测异常网页的一个关键步骤。本文针对不同类型异常网页的特征进行了深入仔细的研究,根据异常网页的攻击目的和手段将其分为攻击型恶意网页、诱导型欺诈网页和垃圾网页,提出了一种新的多类型异常网页检测的方法,并且在此方法的基础上设计了一个Web异常检测系统。本文主要研究了如下内容:1.研究了三种传统的Web异常检测的方法,总结并分析了这些Web异常检测方法的优劣,提出了一种多类型异常网页的特征提取方法。该方法根据异常网页的攻击目的将异常网页分成三大类,根据这三类网页的攻击目的和手段来分别提取异常网页的特征。采用数值填补和归一化的方法解决了特征优化过程中出现的数据缺失和数据过度分散的问题,使用改进的SVM-RFE算法消除冗余特征,设计了一种含有特征有效度的SVM算法(F-SVM)训练分类模型,然后对异常网页进行检测。同时,在四个公开的数据集上对该方法进行了仿真实验,并与现有的其他方法做了对比,结果表明本文提出的多类型网页异常检测方法具有更高的准确性。2.基于多类型网页异常检测方法设计了一个Web异常检测系统。该系统共有四个模块:第一个是Web异常检测模型训练模块。使用本文提出的多类型异常网页检测方法实现了一个持久化的Web异常检测模型。第二个是异常网页检测模块。基于Java语言实现了多类型异常网页检测算法,其输入是将用户输入的URL向量化得到的特征向量,输出是检测的结果1或者0,表示是否为异常网页,并将URL和检测结果等内容存储到数据库。第三个是可视化模块。使用Bootstrap插件将检测结果信息、检测趋势信息和用户自建黑名单等信息通过图表等形式展现给用户。第四个是系统管理模块。该模块包含用户注册登录管理、用户信息管理和系统信息管理。注册登录采用了邮件验证码和登录验证码的方式确保用户使用登录和注册功能时的安全;用户和系统信息的管理确保系统可以准确、安全、高效地运行。对该系统的各个功能和系统性能做了测试,测试结果表明系统具有良好地鲁棒性和负载能力,对异常网页有很好的检测能力。
其他文献
哈希方法是一种近似最近邻算法,哈希方法通过使用哈希函数将特征向量转换为二值的哈希码,以此提高最近邻搜索的效率并降低存储空间的占用。基于学习的哈希方法从训练数据中学习哈希函数,能够生成更紧凑的哈希码,且检索效率也有所提高。按照学习目标的不同,基于学习的哈希可以分为非监督哈希、监督哈希与半监督哈希。本文提出一种新的监督哈希算法-自然监督哈希(Natural Supervised Hashing,NSH
随着红外探测器的广泛应用及发展,红外探测器的设计与研制工作越来越受到重视。新一代红外探测器创新技术多,性能得到了极大提升。红外探测器的研发周期长、成本高、外场实验复杂,依靠计算机仿真可提供参数优化指导,缩短研制周期节约成本。为了获得可信的仿真结果,建立精确的物理模型是至关重要的。所以,本文针对第三代红外探测器的技术特征,即高动态、小像元、数字输出,建立了信号级的物理模型,精确仿真高动态、小像元、数
本文主要研究了基于分数阶微积分的图像增强和图像降噪两个方面的内容。在图像增强方面,通过对适型分数阶导数的离散化构造了一种新的分数阶微分掩模,得到了一个新的自适应分数阶微分掩模算法用于图像增强。对于图像降噪,提出了一种新的基于适型分数阶积分的自适应分数阶积分掩模降噪算法,并通过几个图像处理效果参数给出了处理后的图像质量对比。根据内容,全文共五章:第一章,介绍了分数阶图像处理的课题来源、研究发展概述、
在油气储层相建模过程中,准确表征和再现地质露头或地质知识库中沉积相或岩相展现出的空间结构特征极为关键,可用的方法主要包括基于区域化变量理论的传统地质统计学建模(如截断高斯和序贯指示建模)、基于目标的建模方法(河道模拟)、基于相转移概率的建模方法及近年来兴起的多点地质统计方法。但是,如何评价相建模方法的适用性及其对数据空间结构特征恢复的有效性始终是相建模过程中较为薄弱的环节。提出利用马尔可夫链模型评
作为一种新的广告交易形式,在线广告交易所在近期被多家商业公司引入。该种广告交易方式要求各广告网络(ad networks)为每次页面浏览进行实时自动竞价。交易Agent竞赛之广告交易所(TAC AdX)是一个要求参与者扮演广告网络,在广告交易所中自动竞买广告计划(advertising campaign)和广告展现(impression)的竞赛,其主要特殊点在于存在长期信誉度。本文从第一届TAC
隐式篇章关系识别是自然语言处理中极具挑战性的一项任务,其旨在自动识别缺少连接词的两个论元(子句或者句子)之间的语义关系(例如因果,并列等)。近些年,随着深度学习在自然语言处理各类任务中的广泛应用,也出现了众多基于深度学习的隐式篇章关系识别模型,取得了较好的效果,已经全面超过了早期基于人工提取特征的方法。现有基于深度学习的方法可大致归为以下三类:1)基于论元编码的方法,先通过神经网络模型学习两个论元
数据可视化是一类利用图形图表等直观的展示方法分析数据中隐含的信息的数据分析方法。动态图是一种可视化模型,它对随时间变化的数据进行抽象。针对动态图的可视化研究是可视化的动态展示方法研究的一个重要方面。针对动态图可视化的研究有很多成果,重点是如何对于数据的时间信息进行有效展示。针对数据的时间信息的展示有两种思路,即时间的静态化展示以及动态展示。其中,前者主要利用时间轴以及空间并排的视图,后者主要通过动
在激烈的国际税收竞争背景下,跨国企业激进地税务筹划导致各国税基侵蚀与利润转移加剧。无形资产成本分摊协议本应为企业无形资产的规范管理和风险防控发挥积极效果,但实际上被跨国企业用来作为利润转移的避税工具,成本分摊协议方式开发无形资产使得跨国间转让定价的避税防控变得更加艰巨,也日益收到各国税务机关的关注。在数字经济背景下技术手段成熟的同时,仍未有效解决无形资产估价难题,反而带来更为复杂的无形资产转让定价
机载测向技术一直以来在军事和民用领域发挥着重要的作用,在军事上可用于情报侦察,在民用上可用于频谱检测、无线电监测和海事救援等等。近年来,微型旋翼无人机的发展迅速,其
本论文通过对松辽盆地中央古隆起的岩石特征与储层特征进行观察和鉴定,结合相关地质资料,预测中央古隆起是否具有发育优势基岩油气储层的良好潜力。在撰写论文过程中,共观察鉴定基岩岩石普通薄片和铸体薄片200多张,鉴定岩石岩性二十多种,不仅有变质和浅变质岩类,还有蚀变岩以及少量未发生变质作用的火山碎屑岩和沉积岩,这表明中央古隆起区发生的变质作用不均一,除了区域变质作用外,还可能叠加发生了热变质作用、动力变质