论文部分内容阅读
在一些机器学习任务中,收集训练样本的代价很大而资源是有限的,因此以有限的资源收集高质量的样本是至关重要的。通常情况下,随机抽取的样本被假设服从独立同分布。然而,主动学习是基于先前查询样本的答案选择下一个样本进行查询,考虑了样本之间的相关性,因此主动学习收集的样本质量更高。主动学习在分类、回归、优化等许多任务之中都具有应用。地标点是数据中具有代表性的样本点,在流形学习、谱聚类等领域都具有重要的应用。当数据量较大时,当前的流形上地标点选择算法的时间代价较高。我们将主动学习应用于流形上地标点的选择,提出了基于主动学习和高斯过程的地标点选择算法(Landmarks Selection based on Active Learning and Gaussian Processes,LS-ALGP)。LS-ALGP选择的地标点能够刻画流形的非线性结构和保留数据集本身的特征。(1)我们提出了新的地标点选择目标:最大化高斯过程整体方差改变量。针对新的目标在大型数据集上时间复杂度过高的问题,LS-ALGP应用了近似的目标:最大化高斯过程k-近邻方差改变量。在高斯过程模型中,地标点对近邻数据点的方差有更大的影响,对距离较远的数据点有较小的影响。(2)我们提出了确定地标点数量的策略。随着地标点数量的增多,如果目标函数在一定步数之内的变化量小于给定的阈值,那么算法可以停止。(3)我们为每个类别的数据分别选择地标点。为了有效地利用这些地标点,我们结合正交匹配追踪(Orthogonal Matching Pursuit,OMP)和神经网络设计分类算法框架。给定某个类别的地标点,该框架利用OMP为每一个样本计算相应的稀疏系数,然后把这些系数拼接起来作为新的样本,最后用新的样本训练神经网络。LS-ALGP和其他地标点选择算法在不同的分类器、不同的数据集上进行效果的比较。具体方案是首先运用地标点对原始数据降维,然后在降维后的数据上训练分类器,最后根据分类器效果评价地标点选择的好坏。我们分别应用逻辑回归和支持向量机在MNIST和LetterRec数据集上进行实验,结果证明LS-ALGP相比于地标点选择算法ML更具有竞争力。协方差矩阵自适应进化策略(Covariance Matrix Adaptation Evolution Strat-egy,CMA-ES)可以求解非线性、非凸的连续函数优化问题,而且在病态、高维度和不可分离的问题上具有良好的表现。为了获得较好的效果,CMA-ES的超参需要进行合适的配置。超参配置是一个关于超参的黑盒优化问题。在一些算法中评估超参的代价很高,因此获取高质量的超参极为关键。我们利用主动学习寻找CMA-ES的最佳超参。(1)我们对CMA-ES的超参cc,c1和cμ做离线的配置研究,发现他们对CMA-ES的效果有着重要的影响。(2)为了描述超参与解质量的关系,基于树结构 Parzen 窗估计器(Tree-structured Parzen Estimators,TPE),我们获得解质量分布以及给定解质量情况下的超参条件分布。基于这两个分布,期望提升(Expected Improvement,EI)指导主动学习在超参空间中搜索。EI是与超参相应的解质量相比于已经发现的最好解质量可能的提高幅度。黑盒优化基准测试集(Black-box Optimization Benchmarking,BBOB)无噪声问题上的实验结果显示,相比于默认的CMA-ES和当前效果最好的self-CMA-ES,我们的方法可以提升解的质量。