论文部分内容阅读
随着互联网的快速发展以及网民数量的不断攀升,信息在高速与频繁的交换过程中木马注入、网络钓鱼、分布式攻击等网络攻击不断涌现,严重威胁个人用户的隐私、网络环境的生态及国家信息财产安全。许多网络攻击借助传播恶意URLs来实现。本文针对恶意URLs的检测问题进行了相关研究。针对基于黑名单机制只能检测识别已发现的恶意URLs,无法预测新近出现及未标记的恶意网址的问题,本文对大量URLs进行统计分析,设计并提出具有高检出率的恶意URLs检测特征空间,包含基于时间、元辅音比等34维特征。为验证比较特征有效性,结合机器学习及深度学习算法进行检测实验,证明对恶意URLs检测识别具有良好的区分能力,检测准确率高达99.5%。通过对特征集的对比分析发现:时间、子路径最大长度、URLs中元组在负向数据集概率和、URLs中元组在正向数据集概率和、域名最长字串占域名比例、域名中不同种类的字符占域名比例等15维特征在先前研究中未被使用或较少被使用,但在本特征集中起关键性区分作用。针对人工设计特征规则过程中会引入不相关、冗余、噪声特征等问题,本文提出一种发现综合特征空间的方法,主要采用随机森林、J48、贝叶斯等机器学习算法对基于信息增益、信息增益率、基于相关性等多种特征选择算法选定一组准确率高的广谱特征空间。实验证明,采用此方法提取的特征空间对恶意URLs的检测具有良好的贡献能力,检测准确率高达99.4%,多分类器平均准确率达98.6%,高于全特征集0.4%,特征空间维度下降55.9%。针对URLs检测识别中主流的特征提取算法面临的人工设计规则困难、规则更新时效性差的问题,本文设计了一种URLs编码器并结合3种结构的卷积神经网络来实现URLs特征自提取的方法。该方法采用统计n-gram(n=1)字符数量的方式构建URLs编码器并将URLs映射编码成矩阵结构,然后通过预训练完成卷积神经网络初始化,进而实现URLs特征的自提取。再结合多方面因素对本文的特征提取模型进行验证分析。实验表明,本文提出的将URLs编码与卷积神经网络结合的特征提取方法可以有效地完成对良性和恶意URLs的特征自提取,且提取的URLs特征具备良好的区分差异性,多分类器的分类准确率也均超过97%,最高可达99.2%。