基于支持向量机的网络数据特征选择技术研究

来源 :解放军信息工程大学 | 被引量 : 1次 | 上传用户:mmx1019
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,网络数据识别已成为一个重要研究课题,广泛应用于入侵检测、文档分类、社会网络分析等领域。特征选择是构造网络数据识别系统的核心和关键技术,其目的是在保持或提高学习算法性能的基础上,剔除不相关特征。现有面向网络数据的特征选择算法通常的做法是在已知的特征集合上,从中选择一个子集使评价标准最优,其应用前提是需要一个原始特征集合。例如Moore给出了一个包含248种网络流测度的特征集合。这种做法存在以下问题:一方面,基于网络流测度的特征选择算法只能用于实现对网络数据的粗分类,不支持精细分类,即不能进一步区分同一类中的不同网络数据;另一方面,随着网络技术的发展,网络中存在大量格式未知的数据。这种情况下,很难获得准确的原始特征集合,并且即使能够构建准确的原始特征集合,该特征集合也无法刻画网络中日益多样化的未知协议。因此,迫切需要自主学习能力强的特征选择算法。针对上述问题,本文以支持向量机分类理论为基本工具,着眼于特征选择过程的自主学习能力和特征集合的识别能力,重点研究面向网络数据的自动特征选择算法的理论及其在网络数据自动识别方法中的应用,主要工作和创新点如下:1.面向线性可分、格式已知、有类别标记的网络数据,提出一种基于支持向量机的适用于多类分类问题的有监督自动特征选择算法,该算法解决了现有算法自主学习能力不足的问题;同时还能用于实现对网络数据的精细分类。该算法以网络数据的原始内容为输入,结合1-范数惩罚和2-范数惩罚,能够自动地选择出对分类有重要贡献的特征子集。针对目标函数中损失函数和1-范数惩罚项这两项不可导,利用ADMM(Alternating Direction Method of Multipliers)理论推导了该算法的迭代过程,并得出了参数的自适应调整、选择的特征个数、需要的训练样本数以及测试误差等理论结果。在仿真数据集、3种实际网络数据集和3种常用的公开数据集上的5折交叉验证实验表明,利用该算法选择的特征能够得到较高的识别率。2.面向线性可分、格式已知、类别标记较少的网络数据,提出一种基于支持向量机的半监督自动特征选择算法,克服了现有半监督特征选择算法在进行特征选择之前需要维护候选特征集合的不足。该算法采用裁剪的对称损失函数,通过求解一个混合整数规划问题,能够自动地选择区分能力强的特征子集。利用ADMM推导了该算法的迭代过程,并得出了算法的收敛性、计算复杂度和参数的自适应调整等理论结果。在仿真数据集、3种实际网络数据集和6种常用的公开半监督数据集上的5折交叉验证实验表明,该算法是一种有效的特征子集选择方法,利用该算法选择的特征能够得到较高的识别率。此外,该算法还适用于格式未知的网络数据,这种情况下该算法退化为无监督模式。分别在仿真数据集、3种实际网络数据集和6种常用的公开无监督数据集上进行5折交叉验证实验,测试结果验证了该算法进行特征选择的有效性。3.面向线性不可分的网络数据,分别提出了基于支持向量机的有监督自动特征选择算法和无监督自动特征选择算法,所提算法利用核函数的思想,通过非线性映射函数将线性不可分的网络数据映射到高维空间中,实现了有效的特征选择,同时具有较强的自主学习能力。为了在高维空间中进行特征选择,需要以显示形式考虑映射空间,针对该问题,本文利用泛函拟合的方法求解出给定核函数所对应的非线性映射函数。在仿真数据集、实际网络数据集和常用的公开数据集上的5折交叉验证实验表明,所提算法选择的特征子集具有较强的区分能力,但是时间复杂度较高。4.利用本文提出的特征选择算法,设计并实现了一种基于支持向量机的网络数据自动识别方案。该方案能够自动地从大量网络数据中选择重要特征,进而自动地分离标准协议数据和未知格式协议数据,然后分别针对分离后的标准协议数据和未知格式协议数据进行精细分类,还可以对未知格式协议数据的字段划分起到初步的指导作用。分别利用仿真数据集、实际的网络数据集和常用的公开数据集对本方案的性能进行了测试,测试结果验证了该方案的有效性和可靠性。
其他文献
从生产过程中的质量控制角度出发,探讨了应用于目前一些生产中球栅封装(BGA)的检测方法和实用系统,并详细论述X射线检测系统的开发及原理及研究应用状况,指出掌握和提高检测
目的探讨罗哌卡因复合右美托咪定经硬膜外给药对剖宫产妇的镇痛效果。方法选择2017年4月至2018年4月在我院行剖宫产分娩的106例产妇,将其随机分为研究组和对照组,各53例。研
文章分析了昆钢新1#、2#连铸机在试生产期间暴露出的突出问题,提出实行铸机工艺优化的措施,实践中通过对1#、2#铸机进行工艺优化,实现了理想的炉机匹配,铸机溢漏率明显降低,铸坯脱
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
通过对ORACLE数据库的系统结构和工作原理和对数据库系统的设计和调整的阐述,总结了ORACLE数据库的优化使用方法.
红砂岩土作为路基回填土时,会导致路基出现厚度大、疏松等问题。为解决动荷载条件下红砂岩土的能量耗散问题,选取了赣州南桥-龙川高速公路路基土为试验材料,利用SHPB试验装置对
钻石(下):钻石的4C标准王曙三、形形色色的假钻石表4钻石及可能的仿冒品性质光学性质与钻石相近,外观非常相似的仿冒品,主要根据硬度和密度区别外观与钻石相似,但双折射率特别高的仿冒
随着我国综合国力和人民生活水平的提高及国际体育商业化冲击,体育产业化已是社会主义市场经济体制改革的重要部分,其实质是改革体育体制,使体育由事业型、公益型向经营型转