基于机器学习的恶意网址识别方法的研究与发现

来源 :北京建筑大学 | 被引量 : 1次 | 上传用户:wo7ni1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展以及网民数量的不断攀升,信息在高速与频繁的交换过程中木马注入、网络钓鱼、分布式攻击等网络攻击不断涌现,严重威胁个人用户的隐私、网络环境的生态及国家信息财产安全。许多网络攻击借助传播恶意URLs来实现。本文针对恶意URLs的检测问题进行了相关研究。针对基于黑名单机制只能检测识别已发现的恶意URLs,无法预测新近出现及未标记的恶意网址的问题,本文对大量URLs进行统计分析,设计并提出具有高检出率的恶意URLs检测特征空间,包含基于时间、元辅音比等34维特征。为验证比较特征有效性,结合机器学习及深度学习算法进行检测实验,证明对恶意URLs检测识别具有良好的区分能力,检测准确率高达99.5%。通过对特征集的对比分析发现:时间、子路径最大长度、URLs中元组在负向数据集概率和、URLs中元组在正向数据集概率和、域名最长字串占域名比例、域名中不同种类的字符占域名比例等15维特征在先前研究中未被使用或较少被使用,但在本特征集中起关键性区分作用。针对人工设计特征规则过程中会引入不相关、冗余、噪声特征等问题,本文提出一种发现综合特征空间的方法,主要采用随机森林、J48、贝叶斯等机器学习算法对基于信息增益、信息增益率、基于相关性等多种特征选择算法选定一组准确率高的广谱特征空间。实验证明,采用此方法提取的特征空间对恶意URLs的检测具有良好的贡献能力,检测准确率高达99.4%,多分类器平均准确率达98.6%,高于全特征集0.4%,特征空间维度下降55.9%。针对URLs检测识别中主流的特征提取算法面临的人工设计规则困难、规则更新时效性差的问题,本文设计了一种URLs编码器并结合3种结构的卷积神经网络来实现URLs特征自提取的方法。该方法采用统计n-gram(n=1)字符数量的方式构建URLs编码器并将URLs映射编码成矩阵结构,然后通过预训练完成卷积神经网络初始化,进而实现URLs特征的自提取。再结合多方面因素对本文的特征提取模型进行验证分析。实验表明,本文提出的将URLs编码与卷积神经网络结合的特征提取方法可以有效地完成对良性和恶意URLs的特征自提取,且提取的URLs特征具备良好的区分差异性,多分类器的分类准确率也均超过97%,最高可达99.2%。
其他文献
在人们日常生活越来越离不开网络的同时,如何引导人们建设好、利用好、管理好网络?本文从分析网络生活中道德的缺失入手,阐释了网络生活道德规范的内涵和基本要求,概括了网络生活
本研究提出一种新的融合影像低层视觉特征和语义的模糊贝叶斯网络模型。使用了高斯混合模型(GMM)对连续的视觉特征模糊化处理,解决了传统贝叶斯网络小能操作连续输入的问题,更合
分析了港口物流教学中应用仿真技术的必要性和目前主要仿真软件在教学中应用的不足,介绍了仿真技术在港口物流教学中应用的方法和实现过程.说明了港口物流教学仿真系统的模块
对企业性质的认识众说纷纭、莫衷一是,理论界至今还是一种百花齐放、百家争鸣的局面。在历史唯物主义观的指导下,来对比分析古典经济学、马克思主义经济学、新古典经济学和新制
目的对照分析中美飞行学员医学选拔胆囊体检标准及其对选拔结果的影响,为我军飞行学员选拔标准的修订提供理论及数据支持。方法对比分析2012—2015年招飞定选数据,并对胆囊体
女性在生育完后生理、心理会发生各种巨大的变化,大脑回路的变化影响着一名女性到一位母亲的转变,也会影响母亲的行为和反应方式。面孔是一种优先引起我们注意的特殊的刺激,
面向航天器交会对接、编队伴飞以及在轨操控等空间应用的需求,分别对近圆、椭圆轨道上航天器间的相对运动进行了分析与建模,在常值推力作用假设下进行了相对运动的解析求解。采
设计一种基于MSP430单片机的应用于电力设备测温的便携式红外测温仪.采用射频识别(RFID)技术对测量地点进行定位.基于非接触、远距的测量特点,设计采用红外测温传感器MLX90614
论文对无人系统集群海上作战应用进行了研究,初步分析了无人系统集群作战样式、集群作战的技术特点、集群作战过程中的技术难题以及集群对抗技术难点与挑战,为进一步研究无人
休闲渔业是新兴产业,近年来我国休闲渔业发展势头强劲,在为渔民提供就业机会,为社会提供升级消费产品,增加渔民收入等方面发挥了重要作用,已成为我国渔业新的增长点。海南在发展休