基于支持向量机的高维不平衡数据二分类方法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zheng829
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,生物信息学、模式识别等不少领域中,出现了同时存在高维问题和不平衡问题的高维不平衡数据。高维问题是指由于数据集特征空间维数过高而存在着一些对分类效果产生负面影响的特征组合,导致分类效果不佳;不平衡问题是指在数据集里不同类别的样本在数量上分布不均匀,导致分类器对少数类关注不够,容易忽略它们蕴含的珍贵信息,从而影响分类效果。在高维不平衡数据中,高维问题和不平衡问题同时存在,互相影响,形成了新的问题。到目前为止,不少研究者单独针对高维问题和不平衡问题进行了研究,并提出了一系列成熟的算法。但是对同时展现出高维特性和不平衡特性的数据,绝大部分现有的方法都是先解决高维问题或不平衡问题,再解决另一个问题,并没有考虑到高维特性和不平衡特性相互影响而形成的新问题。本文首先对高维问题和不平衡问题分别进行了介绍,并分析了高维问题和不平衡问题相互影响形成的新问题,通过阐述这些问题逐步展开分析研究。然后介绍了支持向量机SVM,分析它在解决高维问题和不平衡问题中的优势,并对现有的一些解决高维问题和不平衡问题的算法进行总结,分析其优缺点。接着,改进SVM-RFE算法以便在考虑不平衡特性的情况下对高维数据进行特征选择,并基于SVM自动划分边界样本的特点改进SMOTE过采样算法以便在希尔伯特空间下进行边界过采样,同时对边界少数类样本的过采样倍率进行调节,提出了一种针对高维不平衡数据二分类的BRFE-PBKS-SVM算法。随后进行了一系列的实验,并且采用可以有效考察算法效果的多种指标来评价实验结果,证明了该算法的有效性。
其他文献
目的探讨甲状腺相关性眼病眼外肌厚度与眼球突出度的关系,为临床医学治疗提供参考依据。方法对2011年3月-2014年3月我院收治的120例甲状腺相关性眼病患者的临床资料进行回顾
在科学技术不断发展的背景下,现代科技的不断应用促使我们生活水平持续提高,并且促使工业生成逐渐走向自动化,促使工业生产效率逐渐提高,尤其是机器人,其作为当前工程自动生
新生儿肺出血(neonatal pulmonary hemorrhage,NPH)系指肺内大量出血,多分布在两肺叶以上,可以是肺泡出血,肺间质出血或两者同时存在。临床症状缺乏特征性,早期诊断困难。多继发于严
[目的]分析云南省近11年来各年龄组肺结核患者的发病趋势,为评价和制定我省结核病防治策略和措施提供主要依据。[方法]从"传染病报告信息管理系统"获取云南省2005-2015年各年
磁共振增强扫描是目前临床上常用的影像检查手段之一,对于显示平扫不易发现的病变及确定病变的性质都有重要价值.而造影剂的注射方法、注射流速直接影响成像质量,传统注射造
目的探讨经腹联合经会阴超声检测子宫下段瘢痕对瘢痕子宫再次妊娠分娩方式选择的临床价值。方法选择2010年1月—2012年1月有剖宫产史的孕妇225例,自妊娠35-42周连续检测子宫下
随着国内人均汽车占有量的不断提高,车位也逐渐变得难找,存在车主找不到车位和车位利用率的供需矛盾。文章使用物联网相关技术,采用NB-IoT通信模块,基于OneNET平台,通过微信
目的探讨三维适形放疗联合同期化疗治疗中晚期食管癌的临床疗效。方法将86例中晚期食管癌患者随机分为观察组(47例)和对照组(39例),观察组给予三维适形放疗联合同期化疗,对照组患者
针对可见光通信系统中高峰均比(PAPR)问题,提出了一种极性光正交频分复用(P-OFDM)方法。发送端采用极坐标转换思想,将通过快速傅里叶逆变换(IFFT)变换器得到的时域复信号的实
汽车性能计算分析是整车总布置设计过程中重要环节,对产品开发成败起着关键性作用: