论文部分内容阅读
多年以来,集成学习方法得到了研究人员的广泛关注。大多数传统的单一学习算法,都有各自的局限性,并不同时适用于所有的数据类型。例如基于核函数的方法适用于小样本的高维数据,而基于卷积神经网络的方法则需要足够多的样本。集成学习方法能够将多次学习的结果结合起来,减小集成中的单个组成部分带来的误差,因此研究人员将集成学习用于分类问题,聚类问题,半监督问题等多种领域,并进行了大量的研究。集成学习当中的主要问题就是如何增加集成中的成员的准确性和多样性。增加成员的准确性和多样性,有助于提高集成的效果。针对这一点,研究人员提出了各种处理数据的方法,这些技术从不同的角度来对机器学习算法进行改进,例如从特征的角度处理数据的子空间方法,从样本的角度处理数据的采样方法。本文的重点是集成学习当中的子空间学习方法,子空间方法在学习过程中使用矩阵投影方法将数据投影到低维空间,或者随机选取一部分特征在低维空间进行分类、聚类。选取子空间的过程往往是随机的,因此经常被用于在集成学习的环境中增加算法的多样性。在分类、聚类或者其他算法中加入子空间技术能够减少冗余的特征对结果的影响,同时增加集成中的成员的多样性,并从一定程度上减少数据处理的时间,提高集成学习的效果。本文将子空间技术与不同的机器学习问题相结合,并将子空间学习用于分类、聚类和流数据分类领域。在以往的工作中,子空间方法往往是单独使用的,然而,如果能够将子空间技术与样本采样等其他方法结合起来使用,就能够进一步地提高集成学习的结果。不同于过去大多数算法只考虑数据的特征维或者只考虑数据的样本维,本文把数据的特征空间和数据的样本空间的优化结合起来以提供更好的结果。本文还将子空间技术与多视图技术结合来处理聚类问题,与集成选择结合来进行分类。本文的主要内容如下:(1)针对如何在分类问题当中选择合适的子空间的问题,本文提出了渐进式子空间集成学习算法(PSEL),在这个算法当中,PSEL首先结合随机子空间算法和样本采样算法生成最初的分类器集合。然后,PSEL通过一个渐进式的选择过程对分类器进行选择,通过新定义的短期损失函数和长期损失函数进行分类器的选择,最终进行加权投票得出最终的结果。本文通过实验将PSEL与现有的算法进行对比,并取得了较好的结果。(2)针对如何在聚类集成当中选择合适的子空间的问题,本文提出了基于多视图学习的方法来解决聚类问题。首先提出3个视图转换方法,将数据的特征维度进行一定的转换。然后,提出将3种视图转换与多视图聚类算法结合来解决聚类问题,并提出基于随机变换和混合多视图学习的聚类集成算法(RTHMC),然后在这个基础上提出增加了随机子空间技术的SRTHMC算法和进一步增加了自适应选择算法的SORTHMC算法。本文也将算法与现有的聚类集成进行了比较,并取得了较好的效果。(3)针对如何在流数据分类当中选择子空间的问题。本文提出了基于双层优化的流数据子空间分类集成(DOSDSCE)。DOSDSCE算法结合了子空间选择和样本选择,在处理新的数据块的时候,用新生成的子空间来训练分类器,并去除集成中的权重低的分类器,本文同时提出用多目标优化算法选择新数据块中的样本来更新旧分类器。