论文部分内容阅读
多标签的数据类型是比单标签的数据的应用更为广泛的数据类型。相对的,多标签数据的分类比单标签数据的分类更为复杂且耗费更高,然而其训练的分类器预测的准确率比单标签的要低得多。所以我们需要为多标签的分类提出一种低耗费却有高的准确率的分类算法。为了达到这样一个目标,我们的多标签数据分类中引入主动学习,为了使我们的方法应用更为广泛,也将训练的数据类型定为图数据。本文引入一种单标签的图数据训练分类器的方法:局部和全局的一致性方法(LLGC)。通过结合多标签的图数据的标签特性,我们提出了多标签的局部和全局的一致性方法(ML-LLGC)。我们为多标签图数据训练出多个相互独立的分类器,以获得我们方法所需的多标签图数据的分类器。本文利用一种复杂度:直推式的拉德马赫复杂度,并使之为优化工具关联我们的分类器的泛化误差。以我们所求出的分类函数为变量建立直推式的拉德马赫复杂度模型,通过求解复杂度模型以及经验的直推式的拉德马赫复杂度,获得泛化误差与经验的直推式的拉德马赫复杂度关系式。当我们获得最小的经验的直推式的拉德马赫复杂度的同时,也将获得最小的泛化误差的上界值。因此,本文引入了詹森不等式、柯西-施瓦茨不等式以及一种顺序优化算法对经验的直推式的拉德马赫复杂度进行了优化。在对经验的直推式的拉德马赫复杂度最小化的同时获取具有最大信息价值的未被标记的数据节点,并人为的将这些节点进行标记以用于训练多标签的分类器,这是一种迭代的计算过程亦是主动学习的求解过程。最终,我们将获得具有符合我们要求的泛化误差界的分类器。本文以一种医学试验数据为我们的实验数据,我们给出的方法通过该组图数据训练了多标签的分类器,并在测试数据中预测了各个数据的标签集,获得了百分比均低的汉明误差与1-误差率。本文还为另一种多标签的分类方法(这种方法构造的分类器的输出是最优的,却并不实用)做了实验。该方法主要用于与我们提出的方法进行对比。对比这两种方法的实验结果表明,本文所提出的多标签图数据的分类方法在具备低耗费这一实用性的优点外,同时其训练的多标签的分类器还具有高的预测精确度。