基于SVM的数据挖掘技术研究

来源 :长春理工大学 | 被引量 : 0次 | 上传用户:ydlwxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着世界信息技术的迅猛发展,信息量也呈几何指数增长,如何从巨量、复杂的数据中获取有用的信息,使数据挖掘技术成为了近年来信息技术研究领域的热点问题。数据挖掘是一种包含了数据库、人工智能和数理统计等多种学科特点的新兴技术,包含的内容很多,其中分类挖掘是最重要也是最常见的数据挖掘任务。支持向量机是基于统计学习理论基础上发展起来的一种通用学习机器,目前正以其优秀的理论基础(VC维、结构最小化理论和核空间理论)成为了数据挖掘中分类挖掘的研究热点。他的主要思想就是在高维特征空间中利用核函数把复杂的分类任务映射成一个线性分类超平面的问题。支持向量机具有结构简单、全局最优、推广能力强等优点。本文先对数据挖掘的基本概念、常用技术等进行了介绍,然后对支持向量机的理论基础、基本概念和基本算法,及目前支持向量机的现有各种改进算法进行了研究和分析。由于在实际应用中,数据挖掘处理的往往是大量的数据或者是增量的数据,因此,本文重点对支持向量机的快速学习和解决大规模数据问题时采用的增量学习策略进行了研究,针对一般SVM增量学习算法训练速度还有提高空间、针对历史数据处理过于粗糙而不能适应新增样本集中数据分布不同情形导致分类精度受损、针对一般SVM增量学习算法优化问题C-SVM惩罚分量C选择的困难及难以适应新增样本集数据分布可能不同的状况,本文提出了一种改进的基于两凸包边界向量预选取的自调整参数Bv-SVM增量学习方法。通过在UCI数据库上实验表明,该方法在训练时间上都明显优于标准C-SVM和一般支持向量机增量学习算法,在训练精度上明显优于一般支持向量机增量学习算法,在训练数据较少时跟标准C-SVM相差不多,但随着训练数据的增多,训练精度逐渐超越标准C-SVM,这说明该方法非常适合大规模数据集的增量学习。
其他文献
随着互联网和移动技术的快速发展,人们对信息服务的需求有着明显提高,针对室内LBS(Location Based Service)的研究更引起大众的广泛关注。GPS定位系统虽然在室外环境下有着较
近年来,随着计算机技术、网络技术与无线通信技术的高速发展和广泛应用,无线传感器网络成为一个在国际上备受关注的前沿热点领域,被评为未来高科技的三大产业之一,它在军事、环境
应急预案流程是突发事件应急管理中重要组成部分,描述了在发生突发事件情形下怎么配置各种资源从而减少损失的规则集合,它直接决定突发事件所造成灾难的范围及程度。虽然我国
WSMO来源于WSMF,是当今最流行的语义Web服务描述框架之一,其目的在于增强Web服务描述的语义性,使Web服务成为计算机可以理解的实体。中介器是WSMO的四个顶层要素之一,用于解
随着嵌入式应用的复杂性的提高和对实时性要求越来越苛刻,作为其核心的嵌入式实时操作系统就显得尤为重要。现有的大部分嵌入式RTOS一开始的设计就着眼于系统的实时性,其应用
煤炭开采业作为高危行业,煤矿安全事故时有发生,威胁着矿工的人身安全,同时给企业也带来了巨大的经济损失。煤矿安全监控和通信系统作为提高煤矿生产安全的有效途径和手段,在
摘要:随着我国铁路跨越式大发展,铁路运输装备从传统的机车车辆向动车组转变,对车地通信的实时性和准确性都提出了更高的要求。利用计算机仿真的手段,来模拟动车组的实际运行
随着管理信息系统(Management Information System, MIS)的不断变化和规模的日益扩大,如何有效地控制系统的开发周期,开发成本以及软件质量,成为了开发过程中亟待解决的问题
随着信息化大潮的来临,网络攻击技术呈现出多样化,黑客攻击客户端已成为威胁计算机安全的最大隐患。目前计算机信息的安全问题很难单靠软件的方法解决,为此可信计算平台联盟T
随着Web2.0时代的到来,互联网的迅速发展,人们对网络的依赖越来越多。尤其是“互联网+”的提出,各大企业均响应号召,实施转型,各行各业每天都能产生海量数据,且呈爆炸式增长