基于SVM的变量选择

来源 :北京大学 | 被引量 : 0次 | 上传用户:qinzi9509
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
变量与特征选取技术已经被广泛应用许多研究领域,这些研究领域通常要处理成千上万的数据并且需要对数据进行分析研究。这些领域包括:互联网的文本处理、基因芯片的数据分析和组合化学。变量选择的目的一般主要为三方面:提高预测功能,提供更快更高效率的预测方法以及通过对数据的降维获得对数据更好的理解。在做模型选择时,变量选择涉及变量降维与参数调整。然而,变量选择在理论与实际应用中存在某些挑战。从实际应用的角度出发,减少变量维数可以分类器分类复杂度并且提高计算速度,但要在大量的变量中穷举搜索出目标变量,搜索算法的效率与复杂度是关键。一些变量选择的方法即便是在微小的扰动下也非常不稳健,比如训练样本数据的减少,变量个数的减少,变量带入的噪音等扰动。从理论上讲,变量选择的模型选择是个难点。这些难点在于机器学习与变量选择的同时进行,或者在无监督的学习中,类别个数的选择与变量选择同时进行。除上述问题外,评估一个变量与目标概念的相关程度以及提供对于所选变量集合稳健性的理论解释也是需要解决的问题。最后,对于各种变量选择方法比较与评估也有待继续深入研究。 本文的目的是让读者了解变量选取的方法,并结合支持向量基(SVM)与后退算法(Backward)提出了自己的模型,对于有监督的机器学习大大提高了变量选择的准确性与稳健性,并在模拟数据以及实际例子中取得了较好的结果。
其他文献
宁波港是传统的水产品集散地。发展至今,宁波水产品批发交易市场正向规范化、规模化方向发展,如何根据水产品批发交易市场的特点和内在规律进行管理、培育和引导。使宁波市
花粉萌发和花粉管的生长在有花植物有性生殖中占有重要地位,担负着将雄配子即精子,运送到胚囊进行双受精的任务。花粉管的顶端生长是一种极端的极性生长方式,理解其生长调控
9月3~6日,第十届中国—东盟博览会在广西南宁隆重举行。李克强总理和东盟国家领导人出席了博览会开幕式。在上海国际经济技术合作协会的倡导下,中国建材工程与另外5家上海对
随着固体废弃物处理与处置的新技术和新方法的不断涌现,传统的教学模式已无法适应现代的教学理念.本文在课程内容、教学组织形式和考核方式等方面对《固体废弃物处理于处置》
奇异积分算子在函数空间的有界性是调和分析的核心课题之一。熟知,经典奇异积分算子在哈代空间HP(Rn)上有界。本文研究与薛定谔算子相关的奇异积分算子在哈代型空间上的有界性
4月8日—14日,省社副主任颜金尧、徐海洋率考察组一行12人赴贵州省、广西区学习考察当地供销合作社改革发展情况。通过召开座谈会,听取情况介绍,现场参观,实地考察,我们感到
本文主要利用广义Riccati技巧和H(t,s)型函数,给出了二阶非线性中立型标动态方程(r(t)((y(t)+p(t)y(τ(t)))△)γ)△+f(t,y(δ(t)))=0新的振动准则.本文主要分为以下三章: 第
本篇论文主要处理了楔形气体进入真空时解的存在性。在自相似坐标以及速度图变换下,流体可以由一个二阶偏微分方程表示,在亚音速区域里,问题转化为拟线性椭圆方程在一无界区域上
可变剪接机制对于基因表达的调控和蛋白质的多样性都有很大的贡献,一般认为可变剪接与很多疾病的诊断与治疗相关,因此,了解基因的可变剪接能给药物设计与临床诊断带来很大帮助。
支持向量机(SVM)是建立在统计学习理论的VC维理论和结构风险最小化原理的基础上的,它在很大程度上解决了以往的机器学习的模型选择与过学习、非线性、维数灾难、局部极小点等