论文部分内容阅读
近年来,多标记学习在诸多领域受到了广泛关注与应用。然而,多标记数据集中的特征维度很高且含有大量噪音以及不相关和冗余的特征。会导致巨大的存储和时间开销,更会带来严重的维度灾难问题,使得多标记学习任务变得十分困难。因此,如何有效地对多标记特征进行选择,是多标记学习中的重要研究内容,自上世纪九十年代开始,就有诸多科学家致力于特征选择的相关研究,迄今已经的发展出上百种有效的方法。在诸多方法中基于信息理论的方法是其中的一个重要分支,并取得了很好的效果。然而,大多数基于信息理论的特征选择方法是从单标记特征选择方法转换而来,或者采用容易陷入局部最优的启发式搜索策略进行特征选择。基于以上考虑,本文提出一种新的基于互信息的特征选择框架,该框架使用凸优化策略替代之前的搜索策略进行多标记特征选择,从而在提高特征选择效果的同时降低计算的时间复杂度。本文主要研究工作如下:1.针对传统多标记特征选择算法在选择最优特征子集方法上的不足,本文提出一种新的最优子集选择方法,从而极大的降低了算法的时间复杂度。在经典单标记特征选择方法mRMR的基础上提出一种改进的特征选择思路,该思路尝试将以往的搜索问题转变为全局优化问题。mRMR方法是一种经典的单标记特征选择方法,其中文名称是最大相关性最小冗余性(Max Relevance Min Redundant)特征选择方法,该方法假设原有标记空间的特征之间相互冗余同时与标记具有极强的相关性,因此在标记空间中搜索出符合以上原则的最优特征子集就可以达到特征选择的目的,并且大量实验及相关的衍生方法也证已经实该假设的有效性。但是该方法以及大多数基于搜索的特征选择方法的时间复杂度都过高,需要消耗大量的计算资源,因此在第三章中,本文尝试使用全局优化策略解决该问题,并尝试将标记相关性信息融入到特征选择过程当中,从而提出一种有参数模型,利用内点罚函数法进行最优值求解,并在第三章进行了相关实验及分析。2.第三章所提算法虽然相较于传统经典算法在时间复杂度上有了极大的提高,但是由于其是一种含参数模型,因此最优参数的选择将会极大的浪费算力。针对该问题,第四章的工作在尝试第三章工作的基础上,继续对所提算法进行改进。为进一步提高算法鲁棒性,将有参数模型变形为一种无参数模型不失为一种有效的解决思路,因此第四章提出一种无参数特征选择算法,同样使用内点罚函数法作为该算法的求解方法。为了验证该算法的有效性,本文将在第四章进行大量实验并进行相关分析。3.针对内点罚函数法作为一种近似求解方法而导致最优解近似为全局最优解的问题,本文将解析解法作为一种补充求解算法在第五章进行对比。解析解法与内点罚函数法各有优缺点,因此需要对二者的特性进行具体分析,本文主要采用内点法函数法作为求解方法是考虑到其对数据集无具体要求,鲁棒性较强的优点。但是解析解法在时间性能上的优越性是不能被忽视的,因此本文将其作为补充工作在第五章列出,并于内点罚函数法进行实验对比分析。多标记特征问题提出于二十世纪九十年代,至今已有近三十年历史,期间诞生出许多优秀的研究工作。但随着信息时代的到来,无论是数据的数量,还是单一数据的维度,都产生指数型的变化,因此以往的多标记特征选择算法无法全部适用于今天的“大”数据,针对今天的数据维度和广度研究多标记特征选择问题变得十分必要。