用于不平衡数据分类的模糊多类支持向量机算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：cmm870811

【摘要】

：

当今时代是一个数据的时代，各行业领域每天都获取了庞大的数据，这些数据蕴含的规律引起了人们的高度重视，数据挖掘技术的研究需求在这一大背景下更为急迫。分类问题作为数据挖掘

【作者】

：

吴园园

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2017年期

【关键词】

：

数据分类支持向量机算法类重叠度隶属度值

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当今时代是一个数据的时代，各行业领域每天都获取了庞大的数据，这些数据蕴含的规律引起了人们的高度重视，数据挖掘技术的研究需求在这一大背景下更为急迫。分类问题作为数据挖掘中的经典问题，一直是学术界讨论的热点之一。支持向量机是目前十分流行的分类算法之一，其泛化能力强，可以较好地解决小样本、非线性、过拟合、维数灾难和局部极小点等问题。支持向量机在平衡数据集上分类效果很好，然而在不平衡数据集上其分类结果具有偏向性，少数类的分类精度很低，且支持向量机容易受到数据集中的噪声样本的影响，导致分类结果出现偏差。针对支持向量机在不平衡且含噪声数据集上分类效果不理想的问题，本文分别从算法层和数据层两方面进行研究，提出两种数据分类模型，具体内容如下:　　(1)从算法层面入手，提出基于类重叠度的非平衡模糊多类支持向量机算法。算法采用训练样本点到其类内中心的距离和类重叠度加权的方法设计样本模糊隶属度函数，根据样本点的重要程度，分配相应的隶属度值，提高支持向量点的权重，降低噪点的权重。同时采用不平衡类调节因子，降低不平衡数据对分类结果的影响。在多分类问题中，与传统的模糊支持向量机相比，该算法可以有效地处理不平衡数据分类和噪声问题。　　(2)从数据层面入手，提出基于LOF去噪和类重叠度欠采样的非平衡模糊多类支持向量机算法。首先对数据集进行预处理，采用LOF局部离群点因子和箱线图结合的方法删除训练数据集中的噪声样本。然后设置合适的采样数目，根据类重叠度抽取对分类起关键作用的支持向量。预处理过后的数据集最大限度地维持了原有的数据分布信息，并且降低了原数据集的不平衡比例。算法最后将代表每个样本点的重要程度的类重叠度作为隶属度值，构造模糊多类支持向量机。实验结果表明，该算法在能够在很好地保证分类精度的同时，大大地缩减运行时间。

其他文献

“高”书记

“高”书记并不姓高,而姓赵,名字叫赵忠顺,河北省饶阳县委书记、人武部党委第一书记。只因他抓人武工作总是棋高一招,人武部的同志都称他“高”书记。全面建设小康社会民兵

期刊

人武工作民兵工作饶阳专武国防动员民兵训练基地民兵连民兵之家民兵整组抢险救灾

地下水随机模型的Monte-Carlo随机有限体积法的研究及应用

地下水水流模型和地下水水质模型都包含着许多随机因素,并受到这些因素的制约和影响,从而使它们具有一定程度的不确定性,把模型应用于预测和管理时,一个很重要的问题是怎样把

学位

Monte-Carlo随机方法有限体积法数值模拟地下水水流模型数学模型

关于分式规划的若干问题的研究

该文在R空间中,利用局部Lipschitz函数的广义方向导数这一概念给出了不变凸函数的概念,并给出了伪不变凸,拟不变凸等概念,在这些概念的基础之上,证明了多目标分式规划的最优

学位

Lioschitz函数凸函数发式规划最优化条件鞍点

社区服务中心销售与回收盈利模式的研究

本文的研究是国家科技支撑计划——社区生活圈互动服务平台及应用示范项目的一部分。社区服务中心是由政府倡导，建立于社区、服务于社区的公办或民办机构。盈利模式的研究是现

学位

社区服务中心销售策略盈利模式政府补贴

晶体微结构计算中的非协调元方法

在对晶体材料的研究中,对微结构的理解和计算起着重要的作用.Martensitic晶体在高温状态下是一个对称的固态,称为Austensitic晶体,而在低温状态下就是Martendite ,它具有特

学位

微结构variants有限元非协调元Wilson元共轭梯度法可视化

基于面向对象技术的ELIMINO系统用户界面的分析、设计与实现

STAR(Small Tool for Algebraic Research)计划是国家"九五"攀登计划"数学机械化研究及其应用"的子课题--"基于吴方法的数学研究软件的研制与开发"的子项目.在STAR计划支

学位

数学机械化符号计算面向对象图形用户界面事件

基于人类视觉系统(HVS)的数字视频水印算法研究

随着计算机、多媒体及网络技术的迅猛发展,数字产品极大丰富,并轻而易举就可通过网络获得。这导致数字产品在不受任何控制的情况下会被轻易拷贝、操作和改动。数字水印技术的

学位

数字水印数字视频水印离散余弦变换人类视觉系统(HVS)

数据的样本结构和特征品质的探索性分析--高阶LPC和高阶PARCOR对说话人特征的改进

该文探讨了模式识别中算法或软件对数据的样本结构和特征品质是否有所改进的评价方法和标准,给出了几种评价的统计方法;提出了一种动态刻划数据特征品质的方法.

学位

说话人识别特征提取线性预测系数(LPC)偏相关系数(PARCOR)聚类分析

三对角矩阵的特征值问题

求解一个一般实方阵的所有特征值的问题研究人员常常是化为一个三对角矩阵的特征什问题来求解的，广义特征值问题上也有类似的处理方法。有大量的文献讨论三对角矩阵的性质，以及

学位

三对角矩阵特征值问题

裂隙岩体中核素迁移的数学模型研究

该文主要内容是在放射性核素双重介质迁移数学模型基础上,考虑地壳应力场及温度场对核素迁移的作用机制,完善核素迁移规律研究上的理论基础,充分反映了地层中核素迁移的作用

学位

放射性核素核素迁移双重介质裂隙流构造应力场固-液耦合数值模拟

用于不平衡数据分类的模糊多类支持向量机算法研究

与本文相关的学术论文