论文部分内容阅读
在许多实际问题中,待分类样本的标记是不确定的。本文研究的是机器学习中从有歧义的样本中进行学习的一个框架,即多示例学习。在多示例学习中,每一个样本被称做一个包,每个包可以含有任意数量个示例。如果包中包含一个或多个正示例,那么这个包就是正包;只有在包中所有的示例都是反示例的情况下,这个包才被称为反包。由于示例本身是没有标记的,因此,在多示例问题中,每一个正包都是一个有歧义的对象。正包中包含的大量假正例是多示例学习问题之所以难以解决的与生俱来的困难所在。为了排除多示例数据集的正包中大量的假正例,提高分类精度,本文提出了一个新的多示例学习包层次覆盖算法,即MICkNN。覆盖算法的学习结果是一系列的球形领域,在每一个球形领域中只含有同类样本,覆盖算法的这一特性可以帮助我们重新组织多示例数据集中包的结构。概括地说,为了排除正包中的假正例,首先使用覆盖算法生成的球形领域作为新的包结构,对原有的多示例包结构进行重新构造,从而提高多示例样本在新的特征空间中的可分离性。然后,使用包层次的κ近邻算法排除正包中大量的噪声并预测被测试包的类别。在药物活性预测数据集和基于内容的图像检索数据集中的实验表明,MICkNN算法具有很好的性能。本文的主要内容如下:1.介绍了多示例学习的概念,分析了多示例学习与传统机器学习框架之间的区别。列举了多示例学习的主要应用领域,并梳理了多示例学习的发展过程和研究现状。2.引入多示例问题的定义,介绍了几种经典的多示例算法的主要思想。将已有的多示例算法分为包层次算法和示例层次算法两类,并指出已有算法的不足之处和多示例问题难以解决的固有困难所在。3.提出多示例学习的包层次覆盖算法MICkNN。分析了使用领域覆盖算法重新组织多示例数据集的可行性,并指出了使用领域覆盖算法可以帮助包层次的κ近邻算法排除正包中大量的假正例。4.将提出的MICkNN算法应用到药物活性预测问题中,并介绍了药物分子包的生成方法。在基准的和人造的麝香分子数据集上进行了实验。从分类精度和运行时间两方面比较了所提出MICkNN算法和经典的多示例算法。5.将提出的MICkNN算法应用到基于内容的图像检索问题中,并介绍了图像包的生成方法。在COREL数据集中的三个子类Fox, Tiger和Elephant上进行了实验。