论文部分内容阅读
近年来,网络数据识别已成为一个重要研究课题,广泛应用于入侵检测、文档分类、社会网络分析等领域。特征选择是构造网络数据识别系统的核心和关键技术,其目的是在保持或提高学习算法性能的基础上,剔除不相关特征。现有面向网络数据的特征选择算法通常的做法是在已知的特征集合上,从中选择一个子集使评价标准最优,其应用前提是需要一个原始特征集合。例如Moore给出了一个包含248种网络流测度的特征集合。这种做法存在以下问题:一方面,基于网络流测度的特征选择算法只能用于实现对网络数据的粗分类,不支持精细分类,即不能进一步区分同一类中的不同网络数据;另一方面,随着网络技术的发展,网络中存在大量格式未知的数据。这种情况下,很难获得准确的原始特征集合,并且即使能够构建准确的原始特征集合,该特征集合也无法刻画网络中日益多样化的未知协议。因此,迫切需要自主学习能力强的特征选择算法。针对上述问题,本文以支持向量机分类理论为基本工具,着眼于特征选择过程的自主学习能力和特征集合的识别能力,重点研究面向网络数据的自动特征选择算法的理论及其在网络数据自动识别方法中的应用,主要工作和创新点如下:1.面向线性可分、格式已知、有类别标记的网络数据,提出一种基于支持向量机的适用于多类分类问题的有监督自动特征选择算法,该算法解决了现有算法自主学习能力不足的问题;同时还能用于实现对网络数据的精细分类。该算法以网络数据的原始内容为输入,结合1-范数惩罚和2-范数惩罚,能够自动地选择出对分类有重要贡献的特征子集。针对目标函数中损失函数和1-范数惩罚项这两项不可导,利用ADMM(Alternating Direction Method of Multipliers)理论推导了该算法的迭代过程,并得出了参数的自适应调整、选择的特征个数、需要的训练样本数以及测试误差等理论结果。在仿真数据集、3种实际网络数据集和3种常用的公开数据集上的5折交叉验证实验表明,利用该算法选择的特征能够得到较高的识别率。2.面向线性可分、格式已知、类别标记较少的网络数据,提出一种基于支持向量机的半监督自动特征选择算法,克服了现有半监督特征选择算法在进行特征选择之前需要维护候选特征集合的不足。该算法采用裁剪的对称损失函数,通过求解一个混合整数规划问题,能够自动地选择区分能力强的特征子集。利用ADMM推导了该算法的迭代过程,并得出了算法的收敛性、计算复杂度和参数的自适应调整等理论结果。在仿真数据集、3种实际网络数据集和6种常用的公开半监督数据集上的5折交叉验证实验表明,该算法是一种有效的特征子集选择方法,利用该算法选择的特征能够得到较高的识别率。此外,该算法还适用于格式未知的网络数据,这种情况下该算法退化为无监督模式。分别在仿真数据集、3种实际网络数据集和6种常用的公开无监督数据集上进行5折交叉验证实验,测试结果验证了该算法进行特征选择的有效性。3.面向线性不可分的网络数据,分别提出了基于支持向量机的有监督自动特征选择算法和无监督自动特征选择算法,所提算法利用核函数的思想,通过非线性映射函数将线性不可分的网络数据映射到高维空间中,实现了有效的特征选择,同时具有较强的自主学习能力。为了在高维空间中进行特征选择,需要以显示形式考虑映射空间,针对该问题,本文利用泛函拟合的方法求解出给定核函数所对应的非线性映射函数。在仿真数据集、实际网络数据集和常用的公开数据集上的5折交叉验证实验表明,所提算法选择的特征子集具有较强的区分能力,但是时间复杂度较高。4.利用本文提出的特征选择算法,设计并实现了一种基于支持向量机的网络数据自动识别方案。该方案能够自动地从大量网络数据中选择重要特征,进而自动地分离标准协议数据和未知格式协议数据,然后分别针对分离后的标准协议数据和未知格式协议数据进行精细分类,还可以对未知格式协议数据的字段划分起到初步的指导作用。分别利用仿真数据集、实际的网络数据集和常用的公开数据集对本方案的性能进行了测试,测试结果验证了该方案的有效性和可靠性。