论文部分内容阅读
样本分类一直是数据挖掘领域的研究热点,传统的样本分类是单标签分类,这类样本只与单个标签相关,然而现实生活中的样本往往同时属于多个范畴,对这类样本的处理被称为多标签学习问题。由于多标签数据的特殊性,使得传统的分类方法无法直接对其进行处理,因此人们相继提出了多种方法用于处理多标签数据分类,这些方法总体来说可以分为两类:基于问题转化的方法与基于算法转化的方法。基于问题转化的方法将多标签数据通过某种转换策略转换成单标签数据,然后利用单标签分类方法来进行处理。基于算法转化的方法则是通过改进已有的单标签数据分类方法,使其能直接用于多标签数据分类。本文主要研究基于K近邻多标签学习方法,主要完成的工作内容如下:1:对于已有的懒惰型多标签学习方法:一种新型的多标记懒惰学习方法,该方法在构建样本近邻集时对于每个样本都选取相同个数的近邻点,这种取样本近邻点的方法没有充分考虑样本分布特点。本文针对这一缺点提出改进,将粒计算思想融合到该方法中,提出基于粒计算的多标签懒惰学习方法,该方法在构建样本近邻集时充分考虑样本分布特点,通过粒度控制,动态选取不同样本的近邻点个数,使得构建的样本近邻集中的样本具有较高的相似性,从而改进算法效果。在给出改进方法后,本文对改进方法与原方法进行了实验对比,对比结果表明改进的方法在总体上要优于原方法。2:对于已有的基于随机游走模型的多标签学习方法:一种基于随机游走模型的多标签分类方法,该方法构建的随机游走图是将所有有相同标签的样本点都连接起来,导致随机游走图中边数过多,从而随机游走达到收敛的过程较复杂,从而导致算法复杂性过高。本文将机器学习领域的随机游走图与K近邻方法相结合,提出基于K近邻与随机游走模型的多标签学习方法,该方法首先对训练集中的每个样本点找到其K个近邻点,构建基于训练集的KNN图,然后基于每个测试样本与已构建的KNN图都构建一个基于KNN的随机游走图,在该图上进行随机游走过程,得到一个稳定的概率分布向量,通过该向量得到该测试样本拥有各个标签的概率值,最后给出与该方法对应的阈值选择方法,得到对应的阈值向量,对比测试样本具有各个标签的概率值与其对应的标签阂值来确定测试样本是否具有该标签。分析表明,通过将K近邻方法与随机游走图相结合,有效的降低基于随机游走模型的多标签分类方法的时间复杂度。最后给出本文的工作总结与将来研究工作的展望。