论文部分内容阅读
从上世纪60年代初人们开始对基于数据的机器学习进行研究至今,机器学习领域已经取得了长足的发展。Vapnik等人提出的基于统计学习理论的支撑矢量机,同时结合了统计学习理论和核技术,有效地控制了假设函数集的容量,成为一种通用的学习机;由于支撑矢量机的成功,促使了这一时期新的核机器的出现和快速发展,涌现出了众多优秀的学习机,如核Fisher分类器、核主分量分析及相关向量机等。近年来,Pascal Vincent等人又提出了一种非常有效的学习机:核匹配追踪,该学习机同经典的支撑矢量机相比,其性能相当,同时具有更为稀疏的解。目前,这些学习机均已成功的应用于模式识别,回归估计,函数逼近等领域中。本论文主要包括五个方面的内容:预选取支撑矢量,支撑矢量机稀疏性的自适应控制,Mercer核函数的构造,模糊核匹配追踪及集成核匹配追踪学习机,主要的工作有:1.提出了基于向量投影的支撑矢量预选取方法。已有的支撑矢量机分类学习算法的优化过程不仅包含了对支撑矢量的优化,也包括了对非支撑矢量的优化,这无疑大大增加了不必要的计算量。我们提出的方法是在给定的样本中提取出一个包含了支撑矢量的边界矢量集合作为新的训练样本。如果选取适当的预选取参数,边界矢量集能够包括所有的支撑矢量,这样,在保证支撑矢量机的分类性能不变的前提下,该方法能够大大地减少了训练样本的个数,提高支撑矢量机的训练速度。2.在提高支撑矢量稀疏性方面,提出了一种自适应的控制策略。支撑矢量机的决策速度(即反映速度)取决于支撑矢量的个数,当决策系统含有大量的支撑矢量时,测试时间就会变得异常缓慢。将一个已设计好的SVM学习机应用于在线问题(实时问题)时,学习机的判决速度常常不能满足问题的需要,这是因为SVM的决策系统不够稀疏。在本论文中,我们提出了一种自适应的简化策略,能够根据具体问题的识别要求自适应的简化支撑矢量机解的复杂度,在保证满足任务检测性能的要求下最大化的削减支撑矢量,提升SVM的在线检测速度。3.在核函数构造方面,提出了两种允许Mercer核函数:子波核函数和多分辨核函数。通常核机器中所采用的核函数并不能构成特征空间中一组完备的基,从而学习机的决策函数并不能以任意精度逼近特征空间中任意的目标函数,在大多数情况下,它只是对目标函数的一个近似。子波基函数不仅具有良好的时间—尺度(时频、时空)多分辨特性,而且还具有良好的逼近性能和降噪能力,为此我们构造并证明了子波核函数和多分辨核函数,并成功的将其应用于核匹配追踪学习机中。4.在核机器的拓展方面,提出了模糊核匹配追踪学习机。在实际的应用中常常碰到对非平衡样本和特征目标的检测问题,而对这一类信息的检测通常是困难的——由于传统的智能机器在处理模式识别的问题中均是平等的对待所有的训练数据,并不能对某一类指定的数据或某一些特殊的信息进行有针对性的检测,而对这类信息的有效识别往往成为任务的关键环节。在本论文中,我们提出了模糊核匹配追踪学习机(Fuzzy KMP),预先根据任务的要求对采集的数据设定不同的权重因子(即重要性因子),使学习机根据样本之间的重要性进行程度不同的训练,最终得出基于特征目标的判决准则。5.建立了集成核匹配追踪分类器。在实际工程中,当要求较高的识别精度时,一般采用单一的学习机器并不能达到期望的性能,而集成方法则给出了另一种提升性能的途径——即将一个识别问题划分为多个子任务进行学习得到多个训练好的智能机器,最后采用一定的策略将这多个智能机器集成起来得出最后的决策;采用集成策略同时能够解决另一个更为重要的问题:大规模样本的训练问题。当所采集到的数据非常庞大时,由于计算机的存储空间及计算速度的限制,使得学习机器根本无法处理这些海量的数据,集成策略的采用,先将原始训练数据分裂成一些小的子训练问题,然后对这些子问题分别进行处理,最好通过集成得到最终的判决。集成策略的优势在于不损失原始数据所包含信息的前提下,进一步提升系统的推广能力。