高效恶意网页检测技术研究与应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:wangxiaomax
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网行业的蓬勃发展,通过恶意网页进行的网络安全攻击也越来越多,严重威胁网络空间安全。基于深度学习的恶意网页方法能够检测出添加了混淆的url链接,但是url文本和常规的文本不太类似,url文本非常嘈杂,影响神经网络模型的分类效果。所以为了提升神经网络模型分类url链接的效果,和增加对短连接、ip等无词法特征的url链接的检测,本文提出了基于混合嵌入的恶意url链接检测算法和基于网页文本分类的恶意网页检测算法,并且根据这两种算法设计实现了一个恶意网页检测系统。本文的主要研究工作总结如下:(1)提出了基于混合嵌入的恶意url链接检测算法。针对url文本不规范的问题,提出了数据预处理的方法,并且针对url文本分词会出现大量OOV(out of vocabulary)词语的问题,提出了基于混合嵌入的恶意url链接检测算法,该方法利用高速网络来结合字符级别嵌入和词嵌入,然后利用卷积神经网络来提取url链接的文本特征,接着使用softmax函数进行分类,最后将该算法和其他常用的文本分类算法做对比实验,证明了该算法的有效性。(2)提出了基于网页文本分类的恶意网页检测算法。针对短连接,ip地址等无词法特征的url链接无法使用恶意url链接检测算法检测的问题,提出了基于网页文本分类的恶意网页检测算法,该算法提取出网页中的文本信息,然后利用神经网络模型来分类。针对网页文本分散不连贯的问题,该算法使用CNN-AttentionBi LSTM神经网络来提出全文的特征,从而实现对网页文本的分类,最后将该算法和其他常用的神经网络模型做对比实验,证明了该算法的有效性。(3)设计并且实现了恶意网页检测系统。为了证明本文所提的两种算法的有效性,本文设计并且实现了恶意网页检测系统,该系统能够让用户实时的对恶意网页进行检测。该系统包含一个浏览器插件、主页和后台。当用户访问恶意网页时,插件能立即对用户发出弹窗提示,管理员能在主页上完成一些系统的配置工作。根据实验结果,基于混合嵌入的恶意url链接检测算法对于恶意url链接的识别率在98.9%。基于网页文本分类的恶意网页检测算法对于恶意网页的识别率在96.8%。基于这两种算法开发的恶意网页检测系统,能够高效准确的检测出越来越多样化的恶意网页,能够有效的保障用户的信息财产安全。总之,本文所提的两种恶意网页检测算法是有效的,依据这两种算法开发的恶意网页检测系统,也是有效并且实用的。
其他文献
区块链技术近几年发展迅速,早期的区块链应用都是公有链,承载了大量可自由出入的节点,系统一般采用工作量证明等共识算法。采用证明类共识算法的系统一般每秒可处理交易数很低以及交易确认延迟很高,难以适应于需要高并发、低延迟的金融类区块链应用。另一方面,在以比特币为代表的公有链系统中,为了提高共识节点挖矿的动力,系统会给予挖到新区块的共识节点经济奖励,这样有利于区块链的不断延伸。经济奖励直接影响共识节点挖矿
随着无人机应用领域越来越广泛,国产无人机产品的更新迭代速度也越来越快,导致其研制周期时间越来越短,而在整个研制周期中软件测试阶段所占的比重日益增大。其中,配置项测试是非常关键和耗时的一环,如果能有效地减少该项的测试时间,对于缩短整个产品的研制周期有很大帮助。本课题的主要目的是设计和实现无人机飞控软件配置项测试软件。本文首先对于国内外飞控软件测试方式进行了研究,介绍了软件开发中使用到的Eclipse
随着智能交通的不断发展,车载自组织网络在提高道路安全、实时数据收集、自动化控制、智能收费、增强导航以及一些特定的位置服务、音视频传输、娱乐服务、车内办公等各方各面都发挥着至关重要的作用。然而由于车辆的快速移动性,车载自组织网络的拓扑和网络情况会时刻发生改变,导致其路由存在两个方面的问题:一是在单播路由情况下,车载自组织网络的动态变化性易导致网络环境复杂,消息传输时延增加,同时车辆的快速移动性会造成
文本信息是图像中的重要线索,检测图像中的文本是智能信息处理的重要课题之一。传统的文本检测任务通常是用来提取文档图像中的文字。因为文档的背景一般比较干净、没有复杂的纹理信息,文本信息提取往往比较简单,然而在自然场景下,文本提取的难度往往远大于此,一个原因是它的背景非常丰富,例如街道、植被、楼宇等,另外文字的展现形式也是各种各样,艺术字、变形字、多语言混合、残缺字、光影遮蔽等,而且自然场景图片的质量往
多标签图像是指一张图像中含有多个关注对象的图像,对于多标签图像的研究主要是多标签图像分类。多标签图像分类目前存在的问题主要是分类精度和分类时间没办法有很好的平衡,并且模型的适应能力较差。多标签图片学习目前主要的方向是问题转换和模型适配,问题转换主要是在思想和策略上进行优化,模型适配是通过改变模型的结构来适应多标签,为了得到更强泛化能力的模型,本文在多标签图像分类中开展了详细的研究,主要贡献如下:(
肺癌是全人类一直无法攻克的医学界难题,其极高的发病率和死亡率对人们的身体健康有着巨大的危害。专家研究表示,为了有效地治疗肺癌,提升患者的存活率,可以利用计算机辅助诊断技术来辅助医生进行肺结节的良恶性诊断,该方式明显提升了肺癌早期筛查的准确率和医生的工作效率。随着人工智能的迅猛发展,基于深度学习的计算机辅助诊断技术在医疗诊断领域表现出了强大的生命力和明显的优势。针对肺结节的良恶性辅助诊断,本文在分析
在互联网行业不断发展的背景下,世界各个领域也都开始应用网络技术来创造一个更好的发展环境,同时这为行业发展带来了新的销售与生产革命机会。电子商务不仅使客户与商家之间从实体消费模式过渡到线上商务营销模式,移动互联网的异军突起和相关技术的成熟,使得更多的企业开始通过移动平台来获取客户,从而企业实体店面的营销成本得到有效降低。中小店家在移动互联网的发展的大趋势下,迫切需要一套能够对商品在线平台进行管理的系
行人检测是一种特殊的目标检测任务,它的检测对象为行人,是一个二分类的检测任务。行人检测任务中存在三个关键问题——多尺度问题、遮挡问题和光照问题。目标检测算法的准确率往往与目标的在图片中的尺度有关,大多数目标检测算法对小目标的准确率都较低。当物体发生遮挡时,一方面,物体的轮廓、边缘等特征会被改变,另一方面,物体的特征会重叠在一起难以区分,从而导致误检和漏检。当光照条件比较极端时,可见度较低,这也会导
深度神经网络(deep neural networks,DNNs)在自然语言处理(natural language processing,NLP)的各个领域特别是情感分析领域已经取得了广泛的应用。DNNs具有特征自学习能力,特别适合学习文本抽象、高维和复杂的语义特征。DNNs具有海量的训练参数,其决策过程具有难以理解的黑盒性,而具有可解释性的模型不仅容易改进,也更容易被使用者理解和信任。为此,本文
5G技术和IPv6技术的深度融合和应用普及,使IP地址资源紧张的局面得到明显改善,网络中业务类型和数据流量急剧上升。然而,随着网络规模不断地扩张,网络结构也变得非常复杂,异常流量不断增多,这给网络监控带来了极大挑战。现有的网络监控技术存在着异常流量监测困难、网络数据包获取不完整等问题,远远无法达到细粒度网络监控的要求。基于此,本文提出轻量级细粒度网络流量监控机理和方法,用于监控网络的实时状态,当网