基于专家委员会的主动学习算法研究

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:sherry77677
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器学习理论在指纹识别、图像检索、信用分析、网页推荐等数据分析和数据挖掘领域中的广泛应用,主动学习已经成为模式识别和机器学习中的重要研究领域,并且在理论和实际应用研究中都已获得了长足的发展。主动学习研究主要关注在标记样本较少时,如何利用大量未标记样本来改善学习器性能,它改变了传统的机器学习方式从已知样本集中进行被动学习的方法,而是根据学习进程,主动选择最佳的样本进行学习,解决了传统学习方法对少量标记样本进行学习泛化能力较差的问题。基于支持向量机的主动学习算法和基于专家委员会的主动学习算法是两种研究较多的主动学习算法,但目前仍然存在学习效率不是很高,训练样本标注代价过大,对不平衡数据学习能力较差等问题。本文首先介绍了主动学习模型及其研究的内容,总结了主动学习与其他机器学习方法的区别与联系,对主动学习领域的国内外研究现状进行回顾,介绍了目前主动学习方法研究的几个思路。接着,本文详细介绍了我们在主动学习方法研究领域开展的工作:1.讨论了基于不确定度缩减的主动学习方法,深入研究了该类方法中基于支持向量机的主动学习算法。针对SVM主动学习过程中,对不平衡数据集学习能力较差的问题,本文提出了一种基于SMOTE的支持向量机主动学习算法。该算法将处理小样本数据的SMOTE算法引入SVM主动学习过程中,解决了SVM主动学习在学习过程中,分类超平面偏向少数类的问题,提高了学习的速度和准确率。2.深入研究了基于版本空间缩减的主动学习方法中最具有代表性的主动学习算法——基于专家委员会的主动学习算法。总结了该算法中委员会成员分歧度的度量方式。深入研究了基于专家委员会的主动学习算法中的委员会成员的构建方法和样本选择策略,并提出了一种改进的基于选择的专家委员会主动学习算法,算法的改进主要体现在三个方面:(1)将选择集成的思想引入到委员会成员的构建过程中,将生成的专家委员会中分类性能高,相互之间差异较大的委员会成员挑选出来重新构造一个新的专家委员会,利用新组建的专家委员会对无标注样本进行选择提交标注。(2)在选择集成的过程中,本算法并没有采用基于遗传算法的选择性集成方法,而是改用了另一种智能优化算法--粒子群优化算法,在委员会成员的权重优化过程中,粒子群算法比遗传算法精度更高、收敛速度更快,且在算法实现及操作方面更加容易。(3)在委员会对样本分歧度计算方面,我们采用了投票熵和KL-d分歧度相结合的方式,使委员会选择的未标注样本更加丰富多样。3.深入研究了Decorate算法,对Active-Decorate主动学习算法中,人工虚拟样本的产生方法进行改进,改进后的算法,不仅仅使用带类别标注的训练样本数据计算均值和方差,而是使用带类别标注的和未带标注的样本集共同计算样本的均值和方差。这样产生的高斯分布函数才会更加接近真实的样本概率分布。并将改进后的Active-Decorate主动学习算法与选择集成学习方法相结合,组成基于选择性的Active-Decorate主动学习算法。
其他文献
随着Java EE应用的不断发展,越来越多的应用共性被提炼出来并形成Web应用服务器的功能服务。然而,将实现不同功能服务的各模块组织起来,形成一个完整的稳定高效的Web应用服务
手势作为一种自然直接的交流方式,是一种新型的人机交互模式。操作者只需要通过在设备之前形成手势,便可与计算机进行互动。目前手势识别的理论和技术发展并不成熟,该领域是
随着支持向量机的广泛应用,其在大数据集上训练效率问题以及通过参数优化提高其性能的问题受到人们的广泛关注,本文就这两个问题做了以下研究:首先提出了一种基于多核并行的支
随着互联网的发展,网络学习已成为一种重要的学习方式。越来越多的企业和组织都构建了自己网络资源库,给人们学习带来了丰富的信息和极大的便利。但是,随着网络学习资源数量
组卷问题是一个满足多重约束条件的多目标优化问题,运用传统的数学方法解决组卷问题十分困难,在自动组卷的过程中,组卷系统的效率和生成试卷的质量主要取决于组卷算法的设计
随着信息技术的快速发展,工业控制系统已进入了网络化、智能化时代。无线网络技术逐渐发展成熟并开始进入工业自动化领域,使得工业控制系统的投资成本和使用成本降低。在这种
爆炸式的数据增长对存储服务和存储空间的要求越来越高,许多分布式存储系统运营商投入大量资金购买存储设备,使得系统运行和维护的成本大大增加。然而,网络上很多开放的网络
视频监控数字化、网络化的时代已经到来,监控点的部署变得灵活、分散,监控系统呈现分布式的架构,传统的集中式智能视频分析的解决方案已经不适用,本文应用网格技术构建分布式
互联网时代的信息大爆炸,大量重复无意义的数据充斥在互联网中,人们很难有效的获取需要的知识信息。而随着移动互联网的普及,人们对信息的渴求更加的强烈,虽然搜索引擎可以帮
信息化是社会进步的重要手段之一。当前以计算机技术,通讯技术和网络技术为代表的现代信息技术,使人类对信息资源的利用进入了高效、专业化、多样化、共享化的现代阶段。信息