基于SVM的改进加权KNN分类算法对不均衡数据的分类与应用

来源 :安徽大学 | 被引量 : 0次 | 上传用户:atom1999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来各种类型的数据信息呈爆炸式的增长,对于数据信息处理的需求也在日益不断提高,于是机器学习中的数据挖掘技术逐渐受到了越来越多人的青睐,并且其在各行各业中得到了普遍的应用。人们对庞大数据的分析从以前的手动分析,逐渐转变为利用更加智能便捷的数据挖掘技术对数据进行分类与整合,数据分类在数据挖掘技术中饰演着至关重要的角色。
  关于在数据挖掘中分类方法的研究,是人类对提升分类精度孜孜不倦的追求过程。本文基于目前分类技术中应用较为广泛的主流算法进行了详细的理论分析,并综合主流分类算法在现实生活的应用与普及情况的基础上,结合算法其自身的优势和特点,选取了支持向量机与K-最近邻两类算法作为主要研究对象。并且通过推导分析传统SVM-KNN混合算法的的拟合原理以及对KNN分类器改进方法的相关文献研究提出对于KNN算法的权重因子改进方案,基于上述拟合理论与改进方案提出一种支持向量机分类器与KNN分类器相互拟合的基于SVM调和加权KNN算法(SVM-Based Harmonic weighted KNN algorithm,简称HWSKNN)。
  本文的主要研究内容以及工作如下:
  1)对目前几种应用较为广泛的分类算法进行了详细的理论分析,并对其中的支持向量机和K-最近邻算法的分类原理及特点进行了着重的探究分析。根据目前K-最近邻算法在不均衡数据集上分类误判问题的研究现状及算法的改进方法,提出了一种添加调和因子的改进加权KNN算法的方法,其作用可以衰减在不均衡样本集分类过程中少数类的权重值,使分类结果不会过度偏向于少数类,从而降低分类结果的过拟合现象。
  2)研究了支持向量机在分类过程中的判别特点,即在远离在分界面时具有良好的分类性能,但分类错分情况主要集中于分界面周边区域。根据支持向量机分类器的这一分类特点并结合SVM-KNN混合分类器的原理,将提出的改进后的加权KNN算法引入分界面周边区域,通过对阈值大小的判断来选取较为合适的分类器进行类别的判断。引入的KNN分类器的优势可以有效提高在分界面周边区域的分类准确,所以结合两类算法的优势提出支持向量机算法与改进后的KNN分类器相结合的混合算法即基于SVM调和加权KNN算法,从而提高SVM-KNN混合分类器的分类性能。
  3)对提出的HWSKNN算法进行分类结果检验,通过针对不同类型的数据集的分类实验,来检验传统SVM-KNN算法与HWSKNN算法之间的分类准确率差异。本文对来自文本样本数据集和UC Irvine Machine Learning Repository(简称UCI)数据集的数据样本进行分类来验证所提出算法的有效性。由理论分析和分类实验结果可以得出,提出的改进算法在保证均衡分布状态下的分类准确率的同时,对于不均衡数据集的分类性能相较改进之前SVM-KNN分类器在准确率上得到了一定的提升。
其他文献
底栖硅藻是河流生态系统中重要的组成部分,其群落组成的时空分布可直接或间接地反映水环境变化。随着城市化进程的加快,人类活动对河流生态系统的影响日益严重,研究底栖硅藻的多样性分布格局及其与环境的相关性具有重要的意义。  本研究于2018年和2019年对哈尔滨市不同河段(松花江、呼兰河、阿什河、拉林河)进行6次底栖硅藻样品的采集,共设置30个采样点,采集179号标本。从底栖硅藻群落结构、硅藻的空间及季节
马铃薯(Solanum tuberosum L.)是重要的粮食作物,含有丰富的蛋白质和维生素。近年来人们对马铃薯的需求量增加,为了获得理想的产量,往往在马铃薯生育期施加大量化肥。但不合理使用化肥会使马铃薯减产,降低商品品质,严重时污染自然环境。微生物肥料因其对环境友好、无公害等优点,逐渐被人们所重视。本研究选取实验室中具有良好固氮、溶磷、产嗜铁素等能力的PGPR菌株,制成液体菌肥。通过田间小区试验
学位
非生物胁迫如盐、盐碱、干旱和低温等是限制植物生长发育的主要因素。Ca2+信号途径在植物抗逆机制中具有重要的作用,它可以被环境刺激所激活,瞬时增加胞内Ca2+的浓度,进而激活钙调蛋白(CaM),被激活的CaM与CAMTA转录因子结合进而启动植物的防御系统。在本研究中,将MsCAMTA2基因通过农杆菌介导法转化到烟草中,分析该基因在非生物胁迫下的功能。主要研究结果如下:  1.MsCAMTA2基因的组
学位
青贮玉米(Z.mays L.silage maize)是草食性牲畜的优质饲料。随着对青贮玉米产业的重视,青贮玉米的种植面积逐年扩增,导致农户化肥施用量不断增加,土壤微生物群落改变,致使土壤营养成分不足。微生物肥料可以提供优质菌株,提高植物对土壤中营养成分的利用率,其中,溶磷菌株能够将作物不能吸收的无效磷转化为可以吸收利用的有效磷,在土壤中起着非常重要的作用。本研究从青贮玉米根际土壤中分离溶磷菌株,
学位
该文对高纯纳米AlO粉体的制备,离心成型高纯纳米AlO生物陶瓷的离心成型机理、工艺优化和物理性能进行了研究.在实验的基础上获得了制备浆料时粘结剂与分散剂的最佳含量以及浆料的最佳球磨时间,在前人的基础上确定了烧结温度.对同一固相含量不同高度和不同固相含量的坯体密度,以及同一坯体各个不同部分的密度进行了测量比较.对试样的烧结密度,三点抗折强度、硬度、断裂韧性等物理性能进行了测量、对比,并计算了抗折强度
学位
NO是燃煤锅炉排放的污染物之一,它会严重影响人类健康,并能形成酸雨.因此,控制NO排放十分重要.分级燃烧包括空气分级和燃料分级,是一种经济而有效的低NO燃烧技术,但其在国内煤粉炉上尚未广泛应用,在数量极大的层燃炉上更是有待开发研究.为此,该文首先对NO生成和破坏机理进行了详细的分析,为该次研究提供理论基础,同时也作为层燃炉实验的分析依据.最后,为了研究层燃炉内气体燃料分级低NO燃烧技术,专门搭建了
学位
该文对其进行了大量的理论分析和反应机理研究.另外,由于固硫剂颗粒在炉内停留时间短,而反应时间及SO浓度会对脱效率有很大影响,因此该文对固硫剂喷射装置进行了设计、试验,并通过数值计算进行验证和解释.通过O/CO气氛中喷钙脱硫反应的分析后,该文首先针对CO对CaCO煅烧分解反应的影响进行了研究.与一般采用经验公式的方法不同,该文通过化学热力学分析计算得到了较为精确的反应平衡关系式,然后通过热重分析(T
由于贫煤的着火特性和燃尽特性较差,采用分级燃烧技术来降低贫煤锅炉的NO排放时,往往会导致飞灰含碳量升高、锅炉热效率降低的问题.为实现大型贫煤锅炉的高效低NO运行,该文对分级燃烧过程中影响贫煤NO排放及燃尽的各种因素及其燃烧技术进行了深入系统的实验研究和数值模拟.
学位
该文主要对有源电力滤波器系统中的谐波电流检测电路进行了分析研究,并用MATLAB软件进行了电路仿真.通过仿真电路观测了谐波电流检测电路的检测效果,并对d-q谐波电流检测电路与自适应谐波电流检测电路进行了比较;同时还对有源电力滤波器的变流器控制方式进行了研究,提出了一种双重预测控制方法.最后,该文对有源电力滤波器的整个系统做了分析,指出了谐波及无功被深装置的发展方向——混合型有源电力滤波器.
激光诱导击穿光谱(Laser induced breakdown spectroscopy,LIBS)技术作为一种发射光谱分析技术,因其具有远程非接触测量、分析时间短、多元素同时检测、快速实时在线分析等优点,被公认为是一种具有广阔应用前景的元素分析技术,可有效的对物质的成份和含量进行检测分析。LIBS技术自问世以来,广泛的应用于环境检测、冶金过程、煤质分析、深空探测、地质研究等方面,此外,LIBS