论文部分内容阅读
目前,基于统计学习的模式识别技术已经得到了较深入的研究,一些相关技术成果已成功高效地应用于各种不同的领域。但因为统计学习理论尚处于发展阶段,针对某些具体的应用领域(如Web数据挖掘),其还有很多问题尚待解决,例如:如何实现鲁棒的流形特征降维、如何根据数据分布结构来优化分类边界的问题、如何实现不同数据领域之间的学习迁移问题等等一系列重要工作。具体地讲,本课题主要研究内容主要包括三个部分,各部分的内容概括如下:第一部分主要由第二章组成,在该部分,我们针对传统的LLE对离群(或噪声)敏感的问题,提出一种鲁棒的基于L1范数最小化的LLE算法(L1-LLE),通过L1范数最小化来求取局部重构矩阵,减小了重构矩阵能量,能有效地克服离群(或噪声)干扰,利用现有的优化技术,L1-LLE算法简单且易实现。证明了L1-LLE算法的收敛性。通过与传统LLE方法进行性能比较,结果显示L1-LLE方法是稳定、有效的。第二部分主要由第三章、第四章、第五章和第六章构成,该部分重点探讨了在同时考虑类内数据分布结构最小化和类间间隔最大化的情况下,如何更有效地提升SVM(包括线形和球形SVM)的泛化性能。在第三章中,我们对于模式分类问题,提出一种新颖的具有磁场效应的大间隔支持向量机(MFSVM),在Mercer核诱导的特征空间中,MFSVM能同时解决一类(新奇检测)和二类模式分类问题。MFSVM本质上是一个带约束的线性支持向量机,其旨在学习一个具有磁场效应的最优超平面,通过引入一个最小化的q-磁场带,使得一类(或正常类)被包含其中,而另一类(或异常类)与该q-磁场带的间隔尽可能的大,从而实现类内内聚性的提高和类间间隔的增大,增强线性SVM的泛化性能。在第四章中,我们针对现有模式分类方法不能较好地保持数据空间的局部流形信息或差异信息等问题,提出一种基于流形学习的局部保留最大信息差v-支持向量机(v-LPMIVSVM)。对于模式分类问题,v-LPMIVSVM引入局部同类离散度和局部异类离散度概念,分别度量输入空间局部流形结构和局部差异(或判别)信息,通过最小化局部同类离散度和最大化局部异类离散度,优化分类器的投影方向;在数据点对间的相似性度量上,v-LPMIVSVM采用了适于流形数据距离度量的测地线距离度量方式,以更好地反映流形数据的本质几何结构,从而增强了所提方法的泛化性能。在第五章,为了提高球形分类器的分类性能,受支持向量机和小球体大间隔等方法的启发,提出一种大间隔最小压缩包含球(Large Margin and Minimal Reduced Enclosing Ball, LMMREB)学习机,其在Mercer核诱导的特征空间,通过优化一个最小包含球,以寻求二个同心的分别包含二类模式的压缩包含球,且使二类模式分别与压缩包含球间最小间隔最大化,从而同时实现类间间隔和类内内聚性的最大化。在第六章,为了解决传统支持向量机易出现学习“过拟合”和丢失数据统计特征等问题,通过引入模糊隶属度和总间隔思想,提出一种基于总间隔的最大间隔最小包含模糊球形学习机(TMF-SSLM),使得一类(正类)被包含于一个最小包含超球内,而另一类(负类)与该超球间隔最大化,从而同时实现类间间隔的增大和正负两类类内体积的缩小。通过使用差异成本,解决了不平衡训练样本问题;引入总间隔和模糊隶属度,克服了传统软间隔分类机的过拟合问题,显著提升球形学习机的泛化能力。第三部分主要由第七章和第八章构成,该部分深入探讨了领域迁移学习问题。在第七章,针对当前流形的领域迁移SVM方法中仅考虑领域间分布均值差最小化所存在的局限性问题,在某个再生核Hilbert空间,我们在充分考虑领域间分布的均值差和散度差最小化的基础上,基于结构风险最小化模型,提出一种领域适应核支持向量学习机(DAKSVM)及其最小平方范式(LSDAKSVM),取得了优化或可比较的模式分类性能。在第八章,针对领域适应学习问题,我们提出一种核分布一致局部领域适应学习机(Kernel Distribution Consistency basedLocal Domain Adaptation Classifier, KDC-LDAC),在某个通用再生核Hilbert空间,基于结构风险最小化模型,KDC-LDAC首先学习一个核分布一致正则化支持向量机,对目标数据进行初始划分,然后基于核局部学习思想,对目标数据类别信息进行局部回归重构,最后利用学习获得的类别信息,在目标领域训练学习一个适于目标判别的分类器。所提方法具有优化或可比较的领域适应学习性能。最后,在第九章,我们对本课题研究内容进行了总结和展望。