论文部分内容阅读
多标记学习作为一种解决多义性对象学习建模的框架,其研究成果已经广泛应用到诸如文本分类、网页分类、场景分类等分类问题中,已然成为了机器学习研究领域的一个热点问题。针对多标记分类问题,目前已经涌现出了大量的学习算法,不管是基于k近邻的方法,还是应用支持向量机的方法,以及运用决策树的方法等,都可以将其归为两大类:算法适应法(algorithm adaptation methods,简称AAM)和问题转换法(problem transformation methods,简称PTM)。顾名思义,算法扩展法即在算法层面上解决多标记分类问题。同样地,问题转换法则是从问题本身出发,把复杂的多标记问题转化成“二类分类”问题,继而运用简单易实现的单标记学习算法去处理多标记分类问题。本文的绪论中简述了多标记学习的研究背景及意义,然后对多标记学习在国内外的研究现状进行了详细介绍;简要介绍了多标记学习的理论基础,包括多标记学习问题定义,多标记学习策略简介,以及多标记学习中常用的评估标准、多标记学习中的典型算法、数据集等理论知识。多标记分类问题的研究关键是如何有效利用训练好的分类器,将待分类样例划分到预先定义好的类别中,本文重点考察了多标记分类过程中标记相关性和属性特征选择这两个方面,主要研究成果有:(1)基于多标记学习中存在的标记相关性问题,提出一种基于邻域粗糙集的多标记分类改进算法。研究者在多标记学习中引入邻域粗糙集模型,构造了一个新的学习框架MLRS,运用邻域粗糙集找出给定示例的所有可能相关的标签和排除所有不相关的标签,根据邻域和不同标记间的关系为样例预测正确标记范围。但是,要是一个类在边界区域中因为正例过少,导致该类在通过计算得到的近邻中占据很小的比例,此时如果只看数量很容易造成错分。针对这个问题,本文对MLRS算法做了相应的改进,在边界区域,除了考虑在训练样例和各个不同类别的近邻样例之间计算欧式距离这个因素,还要考虑个数的问题,这两者之间可以建立起一个映射关系,然后用该映射关系预测测试样例类别标记,实验表明,本文提出的方法能较好地提高算法的分类性能。(2)基于多标记学习中存在的属性特征选择的问题,提出一种基于类属属性的多标记局部加权分类算法。一个对象具有多种语义信息,是因为该对象同时含有描述这些语义的属性。因此,对刻画示例与标记间关系的属性进行有效的转换,将使多标记学习过程更加可靠。LIFT算法是基于类属属性的多标记学习方法,本文针对其不足提出了一种新的基于类属属性的多标记局部加权分类算法LIFT-LOCW,该算法通过加权的方法提高了原算法的分类精度,根据实验结果可以看出,本文提出的方法拥有比其他多标记分类算法更好的分类结果。