论文部分内容阅读
随着机器学习研究及应用的不断发展,很多传统领域借用机器学习来提高研究水平,应用机器学习的方法层出不穷,特别是基于机器学习的数据分析方法已成为解决复杂问题的关键技术之一,因此,当前机器学习的角色也逐渐发生了改变,由单一方向向多方向发展,一些新方法、新思想(如多示例学习、半监督学习等)逐渐被研究者相继提出,并实现从理论分析到实际应用的转变。传统的机器学习中,一个对象有一个描述,但在一些实际问题中,一个对象可能同时有多个描述,解决这种“对象:描述:类别”之间1:N:1关系的学习模型就是多示例学习。在多示例学习中,训练样本是由多个示例组成的包,包是有概念标记的,而示例没有概念标记。学习的目的是预测新包的类别。由于多示例学习具有独特的性质,被认为是一种与监督学习、非监督学习、强化学习并列的一种新的学习框架。由于多示例学习的独特性质和良好的应用前景,引起了国内外学者的广泛关注,他们提出了一些基于多示例学习问题的算法,并对这些算法分为三类:第一类是专门研究算法用来解决多示例学习问题,第二类方法试图在传统的单实例学习的目标函数中引入多示例学习的约束,第三类方法试图把多示例问题转化为一个传统的学习问题。以往的研究大多是基于前两种方法,而关于第三种方法的研究较少,因此,在第三类方法体系下,结合传统算法如支持向量机等的特性,提高多示例学习算法的性能,是一个值得研究的课题。本文的研究工作是基于支持向量机的多示例学习研究与应用。在分析以往关于多示例学习算法研究基础上,分析了多示例学习当前的应用领域,研究了现有基于支持向量机的多示例学习方法,在多示例学习第三类方法体系下,提出了三种新的基于支持向量机的多示例学习算法。论文的主要工作如下:1.关于多示例学习的研究。研究了多示例学习问题提出的背景,多示例学习问题的基本理论,多示例学习问题与传统学习算法的区别,多示例学习的分类算法。并分析了多示例学习的当前应用领域,如制药业、基于内容的图象检索、目标识别、股票选择等方面。2.关于统计理论与支持向量机的研究。主要研究统计理论与支持向量机的基本理论,支持向量机的基本原理及其改进算法的研究,支持向量机的简单应用概述等。3.基于支持向量机的多示例学习研究。研究了现有基于支持向量机的多示例学习方法:基于包的多示例学习方法(MI-SVM)和基于样本的多示例学习方法(mi-SVM),DD-SVM和MILES等。在多示例学习第三类方法体系下,提出了三种新的基于支持向量机的多示例学习方法:WEMISVM、BEMISVM和SEMISVM。通过将多示例学习问题转化为单实例问题来求解,WEMISVM方法在新包的预测中使用了集成学习投票方法中的算术平均值法,BEMISVM采用了集成学习中Boosting的方法,SEMISVM将多示例学习问题转换为单实例问题,并通过计算实例之间的算术平均值作为类标签的方法。4.实验设计与结果分析。在weka平台下设计实验,采用十折交叉验证的方法,选取分类精度、均方根误差和Kappa统计值作为评价标准。选取Eibe Frank教授提供的14组实验数据集,通过与标准多示例学习算法CitationKNN,MDD,MIDD,MIEMDD,MINND、MILR、MISMO、MISVM,三种多示例学习机制下使用传统机器学习算法NaiveBayes、J48、IBK、Logistic比较,验证算法的性能,并进行比较与分析。通过实验表明,本文提出的三种基于支持向量机的多示例学习方法具有良好的分类性能,具有良好的应用前景。