论文部分内容阅读
近年来,受益于数据的海量增加和计算资源的日益增强,机器学习在很多应用领域都取得了突破性进展。然而,机器学习技术的性能提升非常依赖于大规模的标记数据集,尤其是深度学习,由于其训练过程需要拟合大量的参数,在标记数据不够充分的情况下,很容易出现过拟合现象。对于很多任务来说,人工标注一个大规模的训练数据集是一项非常棘手的工作,需要耗费大量的人力成本和时间开销。数据有效学习旨在提高机器学习技术对数据的利用效率,减少其对大规模标记数据的过分依赖,在近年来受到了大量的关注和研究。通过研究面向数据有效学习的机器学习技术,有助于提高机器学习的实用性,降低其相关应用的开发成本,并使其能够更好地应对数据稀缺的学习任务。本文主要内容分为五个部分,以数据的有效学习为核心,分别从模型的自适应学习和数据的领域自适应两个角度探讨了如何在标记训练数据不够充足的情况下实现机器学习。其中,论文的前三个部分从模型的自适应学习出发,重点研究利用非参贝叶斯、黑箱优化等技术使机器学习能够根据训练数据的具体规模和复杂程度自适应地选择模型,避免在训练数据较少时因模型过于复杂导致过拟合现象发生;在标记数据不足的情况下,除了从模型本身出发,还可以通过从其它学习任务的现成的标记数据中迁移知识,减少机器学习在当前任务下对标记数据的依赖,论文的后两个部分从此角度出发,重点研究基于领域自适应的数据有效学习技术。论文各部分的研究内容具体如下:1.针对小样本场景下的多元离散数据分类提出了基于离散隐高斯过程的生成分类模型,采用离散隐高斯过程对各类多元离散数据的生成过程进行建模,通过学习数据的连续表示克服多元离散数据的数据集稀疏问题,从而更加有效地对类条件概率进行估计。由于高斯过程的非参贝叶斯特性,算法能够根据训练数据的具体规模和复杂程度,自适应地调整模型,降低标记训练数据过少时所存在的过拟合风险。2.提出了可判别的离散隐高斯过程,将所有类别的训练数据通过一个单独的离散隐高斯过程统一建模,并使用Fisher判别分析对数据连续表示的后验分布进行正则化,使得离散隐高斯过程能够学习到更加有利于多元离散数据分类的连续表示。算法同时结合了离散隐高斯过程对小规模训练数据的生成建模能力和Fisher分析的判别能力,能够在标记训练数据较少的情况下有效实现多元离散数据的分类。3.提出了基于分布估计算法的神经网络结构自适应学习方法,相比高斯过程,神经网络能多层抽象数据,学习到数据更好的表示,但其过于复杂的网络结构使其在训练数据较少时容易遭遇过拟合。算法从神经网络结构优化的角度出发,利用分布估计算法构造最优解在解空间的概率分布并不断对其进行更新,实现网络结构的寻优,使其能根据训练数据的具体特点自适应地选择网络结构,防止因网络结构过于复杂在小数据学习任务上发生过拟合。4.针对图像分类提出了基于深度生成模型的领域自适应方法,利用深度生成模型实现数据的迁移,通过让源域与目标域的生成网络共享相同的语义层参数,以此生成带有特定标记的目标域数据,并随之将其当作训练数据以增强分类器在目标域任务上的判别能力。5.针对图像分割提出了基于结构增强的领域自适应方法,算法通过在全卷积网络的特征层面和输出层面同时增强目标域图像的结构化信息实现有关图像分割任务的领域自适应,能够显著增强分割网络的迁移能力,减少其对标记数据的依赖。然而,当前的工作仍然存在诸多限制,在未来的工作中,将重点针对深度高斯过程、复杂任务中的神经网络结构优化、基于神经网络结构优化的领域自适应等问题进行进一步的探索。