支持向量机算法及其应用的研究

来源 :北京电力高等专科学校学报 | 被引量 : 0次 | 上传用户:zhuqs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:支持向量机(SVM)是在统计学习理论的基础上发展起来的新一代学习算法,具有全局最优,结构简单,推广能力强等优点,是目前机器学习和模式识别领域的研究热点之一。
  
  关键词:支持向量机;文本分类;变量
  
  中图分类号:O246文献标识码:A文章编号:1009-0118(2010)-03-0134-02
  
  一、研究背景
  
  机器学习主要研究从观测数据出发,寻找规律,并利用这些规律对未来的数据进行预测和分类,其实现方法大致有下列三种:
  1、经典的统计预测方法
  2、经验非线性方法
  3、统计学习理论
  在统计学习理论的基础上发展了一种新的机器学习方法——支持向量机(support vector machines简称SVM),它较完美的结合了最优化、判别分析、聚类、回归、分布估计等,而机器只要定义不同的核函数,就能实现现有的学习算法。因此,支持向量机已经在众多的领域取得了成功的应用。
  
  二、国内外研究现状
  
  支持向量机是Vapnik等人提出的,1998年Smola在其论文中的研究为进一步完善支持向量机的非线性算法做出了重要的贡献。
  (1)支持向量机的变形算法
  随着训练样本集的增大,支持向量机对时间复杂度和空间复杂度的要求也逐渐增加。为了提高其运行速度,扩大其应用领域,许多研究人员通过增加函数项,变量或者系数等方法使公式变形,产生出各种有某一方面优势或者一定应用范围的算法,如C-SVM系列,v-SVM系列,One-Class SVM等算法。
  (2)C-SVM算法
  该算法由Vapnik于1995年提出。以两类问题为例,训练样本xi∈Rn,i=1,2…,i,i为训练样本集的规模,yi ={+1,-1}为类别标记,则初始问题可描述为:
   ww+ci
   s,t,yi(w(xi)+b)≥1-
  ≥0,i-1,...,l
   其中C为惩罚系数,C越大表示对错误分类的惩罚越大,是算法中唯一可调节的。这是一个具有线性约束的二次规划问题,采用拉格朗日乘子法即可求解。
  (3)v-SVM算法
  支持向量的树目是影响分类结果和算法效率的一个重要因素。其初始问题描述为:
  ww+ci-vp
   s,t,yi(w(xi)+b)≥1-
  ≥0,i-1,...,l
  p≥0
  为了计算控制参数b和p,选取相同数量s的训练样本组成两个集合S+和S-,S+表示从正类别样本中选取的集合,S-表示从负类别样本中选取的集合,其中包含的支持响亮Xi的系数m满足0≤m≤1,根据KKT条件式中的约束条件yi(w(xi)+b)≥p-可变为等式,并且≥0 。经过变形后可求得b和p。
  (4) One-class SVM算法
  One-class SVM算法最早用于高维分布估计,即寻找超平面VC维的估计值。该算法的初始问题描述为
   ww+ci-p
  s,t,w(xi)≥p-
  ≥0,i-1,...,l
  用超球面替代超平面对样本进行划分,目标函数初始问题变为如下形式
   R2+i
  s,t,(xi)-c≥≤R+
  ≥0,i-1,...,l
  通过设定参数v(0≤v≤1),使得超球面的半径R和它所能包含的训练样本树木进行折中。当v小的时候,尽量把样本放进球面内,而当v大的时候,则尽量压缩球的尺寸。也就是说,该方法通过把样本映射到特征空间,并且尽量用一个朝球面来描述特征空间的样本,把大部分的样本包含到球面中。
  超平面只是将两类样本分开。由于超平面把空间一分为二,两边的地位都是相等的,对于第三类样本无法做响应处理;而超球面不仅可以分开两类,而且每一部分空间的地位是不相等的。对于第三类样本来说,处在超球面内部和外部也是不一样的。通过控制超球面的大小和范围,超球面的作用不仅仅是分开两类,而且还帮球里面的样本尽量包“牢”,包“纯”,拒绝其他类的样本进入。
  
  三、SVM在文本分类中的应用
  
  基于SVM的文本分类系统主要由三个步骤组成:产生数据字典、使用训练样本对分类器进行训练以及使用训练号的分类器进行分类。
  第一个模块:产生数据字典
  1、数据字典的产生。为了构成文本向量,第一步要产生数据字典。当生成一个文本向量,向量的每一维属性只能是数据字典里面所包含的特征值。
  2、构成数据字典。在经过关键字提取的步骤之后,并不是所有的特征词都包含有用信息,可使用相关算法进行处理,建立适当的数据字典。
  3、为了方便对分类器进行训练和测试,需要将训练文本和测试文本转换为特征向量。一个特征向量对应一篇文本,向量里面的每个属性对应数据字典里面若干关键字。
  第二个模块:训练分类器
  这个步骤主要是把样本提供给SVM,最终得到决策函数。所有的知识都包含在训练集合中。
  第三个模块:分类器的预测
  该模块主要用于检验分类器的效果。
  由于SVM分类器在文本分类系统中起了重要作用,基于SVM的文本分类系统可以借助一些SVM的软件包,在其基础上进行设计与开发。下面介绍一个SVM软件包-SVM LIGHT。
  SVMLIGHT由美国康奈尔大学Thorsten Joachims用C实现的支持向量机算法的软件包,具有以下特点:
  •快速的优化算法
  •解决了分类核回归问题
  •计算出查全率和查准率
  •可以处理大规模的训练样本以及上千的支持向量
  •多种标准核函数的实现并允许用户自定义核函数
  
  四、总结
  
  支持向量机是在统计学习理论的 VC维理论和结构风险最小原理的基础上发展起来的一种新的机器学习方法。支持向量机在解决大规模数据的学习问题时,对时间和空间复杂度的要求较高。这一问题限制了其在实际中更广泛的应用。因此,研究有效的学习算法是目前支持向量机应用的主要问题。
  
  参考文献:
  
  [1]张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,(26).
  [2]Burges CA Tutorial on Support Vector Machines for Pattern Recognition[J].Data Mining and Knowledge Discovery, 1998,(2).
其他文献
摘要:德育是实现高等教育人才培养目标的重要环节。如何紧跟改革开放和发展社会主义市场经济的新形势,增强高校德育工作的实效性,是当前乃至今后相当长的社会主义初级阶段我国高校德育工作者面临的一个紧要课题。新形势下,高校德育工作者只有正确把握高校德育工作的特点、找出影响高校德育工作实效的问题,并采取相应的对策才能有效地增强高校德育工作的实效性。    关键词:高校德育;实效性;思考    中图分类号:G6
期刊
摘要:目的:探讨胸腺肽对肺结核的辅助治疗作用。方法:本实验采用87例痰菌阳性的肺结核患者,随机分为对照组和治疗组,两组均采用2HRZE/4HR抗结核治疗,治疗组加用胸腺肽20mg静脉滴注,每日1次,观察两组患者痰菌阴转率。结果:两组相比,其痰菌阴转率有显著性差异。结论:胸腺肽辅助治疗肺结核有明显疗效,可促使痰菌阳性患者及早转阴,减少其传染性,缩短住院时间,值得临床推广。    关键词:胸腺肽;肺结
期刊
摘要:农民工应有的权益得不到保障将影响到“三农”问题的解决,影响到和谐社会的构建,因此必须保障农民工应享有的权益。农民权益的保护需要法律制度的支撑。本文提出从完善宪法及有关法律制度方面确立农民工权益的法律保障。    关键词:和谐社会;农民工权益;法律保护    中图分类号:D925文献标识码:A文章编号:1009-0118(2010)-03-0126-02    一直以来,“三农”问题都是我国政
期刊
摘要:手机病毒作为一种新兴类型病毒在现今手机用户中迅速发展,尤其是我国进入3G网络之后,高带宽的手机通信传输网络为手机病毒的 、传播都供了温床。本文从手机病毒的定义、类型、特点及危害四点出发,较详细的介绍了手机病毒在现实生活中对用户的影响及危害,使用户可以对手机病毒有一个较全面的了解,为以后的  防御工作打下基础。    关键词:手机病毒; 手机病毒特点;手机病毒危害    中图分类号:TN929
期刊
摘要:本文就发展清洁能源应对气候变化;小水电的优势和特点;亟待解决的问题;可持续发展的方法和措施做一简要分析。    关键词:清洁能源;生态环境;无序开发;治理整顿;可持续发展    中图分类号:TM62 文献标识码:A文章编号:1009-0118(2010)-03-0137-02    全球气候变暖是当今国际社会面临的最为严峻的挑战之一。它给自然生态系统和经济社会发展带来了严重影响,已引起各国的
期刊
摘要:本文主要介绍了大学生生命教育的主要内容,然后重点针对在高校政治理论课中进行生命教育方法和策略进行了探讨,主要从生命教育课程开设、重视生存感受的培养、危机干预中心的成立和整合教学资源配置等方面进行了介绍和阐述。    关键词:高校;生命教育;思想政治教育    中图分类号:G641文献标识码:A文章编号:1009-0118(2010)-03-0121-01    一、生命教育的主要内容    
期刊
摘要:阐述了危险点分析控制的定义和理论依据,重点分析了危险点分析控制法在实际工作中的应用,特别是应用因果鱼刺分析法全面分析危险源,制定控制措施,提出了一些具体做法和建议,并举例说明。    关键词:危险点;分析;控制;实践;体会    中图分类号:TV5文献标识码:A文章编号:1009-0118(2010)-03-0140-02    “危险点分析控制”工作法是运用安全系统工程理论,以“危险辩识、
期刊
摘要:诉讼调解作为一种民事案件的结案方式,越来越受到重视,这当然有其内在的原因。但是,在当前运用调解的方式处理民事案件的过程中,不可避免的存在一些问题。本文的目的在于通过分析诉讼调解被重视的原因,找出诉讼调解存在的问题,探寻解决问题的方法。    关键词:诉讼调解;困境;思考    中图分类号:D925文献标识码:A文章编号:1009-0118(2010)-03-0124-02    调解,指的是
期刊
摘要:本文通过Windows RootKit检测技术概况进行了描述,并对国内外最新发展状况进行了分析,对常用的主流检测方法做以介绍和比较,并对下一步基于Windows RootKit检测的技术发展进行浅析。    关键词:Windows RootKit;执行路径检测;Cross-View检测方法    中图分类号:TP316文献标识码:A文章编号:1009-0118(2010)-03-0142-0
期刊
摘要:随着信息化、网络化的迅速发展,“X门”层出不穷,本文拟从模因角度来解析“X门”这一强势模因的发展及其内在机制,以及-gate和“X门”的变异,更好地理解这一语言现象。    关键词:“X门”;模因;强势    中图分类号:C912.68文献标识码:A文章编号:1009-0118(2010)-03-0158-01    一、引言    近年,“X门”频频出现于各类媒体,特别是“艳照门”以来,“
期刊