主动学习方法及其应用研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:duan01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在一些机器学习任务中,收集训练样本的代价很大而资源是有限的,因此以有限的资源收集高质量的样本是至关重要的。通常情况下,随机抽取的样本被假设服从独立同分布。然而,主动学习是基于先前查询样本的答案选择下一个样本进行查询,考虑了样本之间的相关性,因此主动学习收集的样本质量更高。主动学习在分类、回归、优化等许多任务之中都具有应用。地标点是数据中具有代表性的样本点,在流形学习、谱聚类等领域都具有重要的应用。当数据量较大时,当前的流形上地标点选择算法的时间代价较高。我们将主动学习应用于流形上地标点的选择,提出了基于主动学习和高斯过程的地标点选择算法(Landmarks Selection based on Active Learning and Gaussian Processes,LS-ALGP)。LS-ALGP选择的地标点能够刻画流形的非线性结构和保留数据集本身的特征。(1)我们提出了新的地标点选择目标:最大化高斯过程整体方差改变量。针对新的目标在大型数据集上时间复杂度过高的问题,LS-ALGP应用了近似的目标:最大化高斯过程k-近邻方差改变量。在高斯过程模型中,地标点对近邻数据点的方差有更大的影响,对距离较远的数据点有较小的影响。(2)我们提出了确定地标点数量的策略。随着地标点数量的增多,如果目标函数在一定步数之内的变化量小于给定的阈值,那么算法可以停止。(3)我们为每个类别的数据分别选择地标点。为了有效地利用这些地标点,我们结合正交匹配追踪(Orthogonal Matching Pursuit,OMP)和神经网络设计分类算法框架。给定某个类别的地标点,该框架利用OMP为每一个样本计算相应的稀疏系数,然后把这些系数拼接起来作为新的样本,最后用新的样本训练神经网络。LS-ALGP和其他地标点选择算法在不同的分类器、不同的数据集上进行效果的比较。具体方案是首先运用地标点对原始数据降维,然后在降维后的数据上训练分类器,最后根据分类器效果评价地标点选择的好坏。我们分别应用逻辑回归和支持向量机在MNIST和LetterRec数据集上进行实验,结果证明LS-ALGP相比于地标点选择算法ML更具有竞争力。协方差矩阵自适应进化策略(Covariance Matrix Adaptation Evolution Strat-egy,CMA-ES)可以求解非线性、非凸的连续函数优化问题,而且在病态、高维度和不可分离的问题上具有良好的表现。为了获得较好的效果,CMA-ES的超参需要进行合适的配置。超参配置是一个关于超参的黑盒优化问题。在一些算法中评估超参的代价很高,因此获取高质量的超参极为关键。我们利用主动学习寻找CMA-ES的最佳超参。(1)我们对CMA-ES的超参cc,c1和cμ做离线的配置研究,发现他们对CMA-ES的效果有着重要的影响。(2)为了描述超参与解质量的关系,基于树结构 Parzen 窗估计器(Tree-structured Parzen Estimators,TPE),我们获得解质量分布以及给定解质量情况下的超参条件分布。基于这两个分布,期望提升(Expected Improvement,EI)指导主动学习在超参空间中搜索。EI是与超参相应的解质量相比于已经发现的最好解质量可能的提高幅度。黑盒优化基准测试集(Black-box Optimization Benchmarking,BBOB)无噪声问题上的实验结果显示,相比于默认的CMA-ES和当前效果最好的self-CMA-ES,我们的方法可以提升解的质量。
其他文献
无线传感器网络(Wireless Sensor Network)即由部署在监测区域内的大量传感器节点利用自组织能力构建而成的通信网络。随着信息社会的发展,数据的获取能力在相关领域中的作用
在这个科技高度发达的现代社会,我们每天都会与很多数据打交道,有些我们可以很容易从中获取信息,但是有些大规模的复杂数据,我们很难直观的获取到数据背后影藏的有效信息。于
随着三维模型精度的不断提高,三维模型的数据量在飞速的增长,这无疑对计算机处理与传输三维模型带来了很大的压力。三维模型的简化和多分辨率建模是处理以上问题的一个有效的途
聚类分析在数据挖掘领域中占有重要的一席之地,主要是用来发现数据对象在空间中的分布结构。根据数据对象间的相似度量,聚类算法将数据对象集合分割成若干个簇,在同一个簇中
现有的结构健康监测系统的特点是低功耗、低速率和不考虑数据传输的实时性。在各种灾异条件(比如海啸、飓风、地震、剧烈撞击等)下,结构设施会在短时间内发生巨大的变化,这时会产
随着信息技术的迅猛发展,图像处理技术在诸如医疗诊断、气象检测、军事侦测等领域发挥着越来越重要的作用。数字图像分割技术作为计算机视觉中的一种基本技术,是数字图像处理
运动模糊图像的恢复是目前数字图像处理领域研究的一个热点问题,有着重要的学术和应用价值。目前很多运动模糊恢复算法的计算量都比较大并且不能保证恢复结果的质量,针对上述问
本文针对现存的危险化学品安全管理中的主要问题,将无线传感器节点和RFID阅读器结合,应用到危险化学品安全监控中。RFID技术能够识别单个化学品的信息,无线传感器节点负责实
作为未来组成骨干网的核心部分,波分复用(WDM)光网络的研究动态受到广泛的关注。虽然WDM网络可以通过波分复用技术极大地提高网络带宽,但是与其上所承载业务需求量的爆炸式增
文本的表征与文本间的语义相似度计算是自然语言处理领域里十分重要的基础性研究课题,它们直接影响着诸如文本自动分类、信息检索、机器翻译、问答系统等多个应用系统的效果