基于K近邻的多标签学习方法研究

被引量 : 0次 | 上传用户:heeroyuyo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
样本分类一直是数据挖掘领域的研究热点,传统的样本分类是单标签分类,这类样本只与单个标签相关,然而现实生活中的样本往往同时属于多个范畴,对这类样本的处理被称为多标签学习问题。由于多标签数据的特殊性,使得传统的分类方法无法直接对其进行处理,因此人们相继提出了多种方法用于处理多标签数据分类,这些方法总体来说可以分为两类:基于问题转化的方法与基于算法转化的方法。基于问题转化的方法将多标签数据通过某种转换策略转换成单标签数据,然后利用单标签分类方法来进行处理。基于算法转化的方法则是通过改进已有的单标签数据分类方法,使其能直接用于多标签数据分类。本文主要研究基于K近邻多标签学习方法,主要完成的工作内容如下:1:对于已有的懒惰型多标签学习方法:一种新型的多标记懒惰学习方法,该方法在构建样本近邻集时对于每个样本都选取相同个数的近邻点,这种取样本近邻点的方法没有充分考虑样本分布特点。本文针对这一缺点提出改进,将粒计算思想融合到该方法中,提出基于粒计算的多标签懒惰学习方法,该方法在构建样本近邻集时充分考虑样本分布特点,通过粒度控制,动态选取不同样本的近邻点个数,使得构建的样本近邻集中的样本具有较高的相似性,从而改进算法效果。在给出改进方法后,本文对改进方法与原方法进行了实验对比,对比结果表明改进的方法在总体上要优于原方法。2:对于已有的基于随机游走模型的多标签学习方法:一种基于随机游走模型的多标签分类方法,该方法构建的随机游走图是将所有有相同标签的样本点都连接起来,导致随机游走图中边数过多,从而随机游走达到收敛的过程较复杂,从而导致算法复杂性过高。本文将机器学习领域的随机游走图与K近邻方法相结合,提出基于K近邻与随机游走模型的多标签学习方法,该方法首先对训练集中的每个样本点找到其K个近邻点,构建基于训练集的KNN图,然后基于每个测试样本与已构建的KNN图都构建一个基于KNN的随机游走图,在该图上进行随机游走过程,得到一个稳定的概率分布向量,通过该向量得到该测试样本拥有各个标签的概率值,最后给出与该方法对应的阈值选择方法,得到对应的阈值向量,对比测试样本具有各个标签的概率值与其对应的标签阂值来确定测试样本是否具有该标签。分析表明,通过将K近邻方法与随机游走图相结合,有效的降低基于随机游走模型的多标签分类方法的时间复杂度。最后给出本文的工作总结与将来研究工作的展望。
其他文献
本文利用1983~2004年的数据,实证研究了我国加工贸易的增值率与我国全要素劳动生产率的关系。协整检验结果表明,加工贸易增值率与我国全要素劳动生产率之间存在长期的均衡关系
随着我国高校教育事业的不断发展,高校安全已经成为当前教育工作顺利开展的保障条件。高校安全管理亦然成为学术界高度关注和广泛研究的焦点问题。本文在充分调查研究和实地
长期以来,基督教作为一种外来宗教在我国的发展并非“一帆风顺”,一直都面临着政府的管制、精英的反对以及平民的不解等困境。但80年代以后,信教人数猛增,尤其是在我国广大的
当前中国各地的农房抵押贷款试点工作举步维艰,这与中国的土地制度障碍、法律法规障碍、市场机制缺失等问题有关,还和农民对农房抵押贷款的需求息息相关。文章从微观的层面—
目的:观察运用针灸、健脾和胃汤治疗脾胃虚弱证糖尿病胃轻瘫的近期疗效。方法:将72例患者随机分为治疗组和对照组各36例,治疗组应用针刺、艾灸结合健脾和胃汤口服的综合疗法,
<正>当归六黄汤见于李杲《兰室秘藏》卷下,被誉为"治盗汗之圣药也",由当归、生地黄、熟地黄、黄柏、黄芩、黄连各等份,黄芪倍量组成,后世医家常用其治疗阴虚火旺之盗汗、发热
2017年10月24日,财政部印发了《政府会计制度——行政事业单位会计科目和报表》(财会[2017]25号),统一各行政事业单位的会计制度。本文从高等学校视角,阐释《政府会计制度》
在综合考虑技术溢出效应和吸收能力两方面因素情形下,研究两家寡头企业之间的研发投入量、产量随时间变化的瞬时协调和相互竞争的博弈过程,以期获得竞争企业的R&D最优竞争战
实践证实孟加拉乡村银行(GB)小额信贷模式扶贫和利润可兼顾,穷人并不懒惰和贫乏,他们拥有劳动力等资源,只是缺少资金来利用这些资源赚取利润。1993-1994年间,中国社会科学院
中国传统工艺美术是以中华民族博大精深的文化底蕴为基础,经过长期发展而形成的独具特色的人类文化瑰宝,是中华民族文明与传统文化的重要组成部分,它以独具的选材、精巧的构