论文部分内容阅读
随着机器学习的不断发展,单标记学习已无法满足现实世界中的应用需求,越来越多的学者开始着眼于研究多标记学习问题,该问题得到了学者们的广泛关注。现实生活中,基于多标记框架下的多标记学习任务无处不在,该学习框架的核心内容是对每个实例同时与一组标记相关联问题进行研究。多标记学习框架中,通常情况下每个实例同时涵盖多个类标记的语义信息,这些类标记之间也普遍存在相互关联的情况。在多标记学习不断发展的趋势下,多标记分类应用的各个研究领域出现了一系列多标记分类算法。多标记学习面临的挑战是如何学习一种有效的分类模型,该模型能够预测一组与新实例可能相关联的类标记。大多数已有算法处理多标记问题的策略均为在相同属性集合的基础上预测未知实例的所有类别标记。但是由于每个标记或许跟其自身独有的属性特征更相关,因此上述策略并不是最佳选择。针对此类问题,本文围绕“构建标记独有属性特征”和“挖掘标记之间的相关性”这两个关键点展开研究,论文研究的主要内容如下:1.研究了多标记学习问题、多标记k近邻(Multi-Label k-nearest neighbor,ML-KNN)算法、基于类属属性的多标记学习(Multi-Label Learning with Label-Specific Features,LIFT)算法和标记相关性问题的相关理论,分析比较了不同算法之间的区别。针对如何构建有效的标记独有属性特征机制进行研究,提出了融合标记独有属性特征的k近邻多标记分类算法(Improve Multi-Label k-nearest neighbor,IML-KNN)。首先,在训练阶段,使用标记独有特征构建机制分别为每个类标记构造最能判定是否具有该类标记的属性特征,然后基于得到的属性特征使用改进后的ML-KNN算法对多标记数据进行分类。实验中,对于k的取值进行了记录,比较了不同取值的情况下算法性能的差异,对于各个算法之间准确率的差异进行了对比,分析了各个参数对算法分类准确率的影响。实验结果显示了构建独有属性特征机制的有效性,对于优化算法的性能该机制起到了积极作用。2.对于大部分多标记分类算法中存在的并未充分考虑标记之间复杂的关联关系这一问题展开深入研究,提出了基于局部成对标记相关性的k近邻多标记分类算法(Positive and Negative labeling correlation,PNLC)。首先,对多标记数据的特征向量进行预处理,并为每种标记构造最能判定是否具有该类标记的属性特征;然后,在训练阶段,PNLC算法通过所有训练样本中各样本的每个k近邻的真实标记构建标记之间的正、负局部成对相关性矩阵;最后,在测试阶段,首先得到每个测试样例的k近邻及其对应的正、负成对标记关系,通过使用标记关系计算最大后验概率来预测未知样例。针对所提出的算法通过实验进行评估,分析了算法在不同数据集上的性能表现并比较了不同算法之间的分类准确率的差异。