论文部分内容阅读
在传统的监督学习框架中每个样本仅属于一个类标记。然而,在现实中的许多应用环境中,一个样本往往并不仅仅属于单个标记,而是同时属于多个标记,对这种问题进行学习的框架被称为多标记学习。近年来,许多多标记学习算法被相继提出,并成功应用到许多领域,取得了优良的分类效果。然而这些方法通常是耗时的,无法处理大规模数据。随着大数据时代的来临,深入研究快速多标记学习算法具有重大的现实意义。本文首先研究了多标记学习的方法,对相关算法进行了总结,并分析了它们的优缺点。然后将哈希学习的思想融入到多标记学习算法,提出了一种基于哈希的快速多标记学习算法HashMLL。该算法在k近邻算法的基础上引入了局部敏感哈希算法,可以快速进行近邻查找,提高多标记学习的效率。另外,哈希学习会造成一定的性能损失,因此,本文还提出了一种基于MinHash的全局标记相关性计算方法来提高算法的准确度。同时,本文提出的HashMLL算法同时具有较强的泛化能力,可以利用其他的哈希方法进行近邻查找以及引入更准确的标记相关性等多种手段来提高算法的性能。本文在多标记学习领域中多个公开的数据集以及本文经过提取得到的宏基因组数据集上分别对HashMLL算法进行实验仿真。理论和实验分析表明,HashMLL算法可以同时取得较好的准确度和较高的学习效率。而且,相比其他多标记学习算法,HashMLL算法可以在保证一定的准确度前提下,大大提高多标记学习算法的学习速度,在准确度和学习效率之间得到了较好的折中。