论文部分内容阅读
多示例学习概念是上世纪90年代由Dietterich等人在研究药物活性预测问题时提出的。在多示例学习模型中,训练样本的类别标记歧义性不同于传统机器学习模型,使得多示例学习成为一种全新的机器学习框架。多示例学习具有独特的视角和广泛的应用前景,且在以往机器学习领域中尚未被深入研究,被认为是与监督学习、无监督学习以及强化学习并列的第四种学习模型,在国内外机器学习研究中受到了极大关注。随着多示例学习研究的深入,与多示例学习相关的理论体系和算法逐渐发展成熟,目前主要有两类方法用于解决多示例问题:生成式方法和判别式方法。生成式方法是早期研究多示例问题常用的方法,其目的是在示例特征空间中确定出感兴趣区域,使得正示例都位于该区域内,而负示例都远离该区域,它通常用最大似然进行求解。判别式方法旨在将多示例问题转化为标准监督学习问题,通过改变目标函数的约束条件或采用某种消除歧义性策略,将多示例学习问题转换为标准的单示例传统机器学习问题。根据这两种解决多示例学习问题的思路,研究者设计了大量的多示例学习算法,并对其进行了广泛的应用。现在,多示例学习已被广泛应用于数据挖掘、文本分类、图像检索、股票市场预测、垃圾邮件过滤等领域。多示例学习算法的研究是多示例学习问题和应用的核心,本文吸收MILD与MILIS方法的思想,提出了四种基于SVDD的自适应多示例学习算法:算法MILD-NSVDD_I与算法MILD-NSVDD_B,以及算法MILIS-NSVDD_I与算法MILIS-NSVDD_B。本文主要研究了以下三个方面的内容:首先,本文研究与总结了多示例学习与支持向量数据描述的研究现状。简要阐述了多示例学习问题与支持向量数据描述方法的相关背景,综述了多示例学习相关理论、多示例学习与传统机器学习的区别、几个多示例学习的经典算法与相关应用、多示例学习的扩展问题、统计学习理论与支持向量机理论等,研究了硬间隔单分类、软间隔单分类与带负类二分类三种支持向量数据描述方法等内容。其次,本文深入研究了基于代表示例选择与SVDD的多示例学习方法。探讨了正负包中代表示例选择方法、基于示例级的特征映射与基于包级的特征映射方法,研究并提出了将代表示例更新与分类器训练交替迭代进行的迭代学习框架,研究了基于SVDD的两种典型多示例学习算法mi-NSVDD与MI-NSVDD,提出了基于示例分类的MILD-NSVDD_I算法与基于包分类的MILD-NSVDD_B算法、基于示例分类的MILIS-NSVDD_I算法与基于包分类的MILIS-NSVDD_B算法。最后,本文在PC机上设计了两个数值实验,通过在多示例学习的基准测试数据集MUSK与基于内容检索的COREL图像库上验证本文算法的有效性,对比并分析了本文提出的算法与其他多示例学习算法在这两个实验中的分类性能,并直观的从物理意义上分析了基于示例级特征映射的分类算法与基于包级特征映射的分类算法之间性能差异的原因。综上所述,本文提出的算法MILD-NSVDD_I与算法MILD-NSVDD_B、以及算法MILIS-NSVDD_I与算法MILIS-NSVDD_B在解决多示例学习问题上是可行的,具有一定的理论与实际应用意义。