论文部分内容阅读
随着信息技术的发展尤其是高通量技术的进步,数据已成为各行业接触最多,使用最为频繁的信息载体。但海量数据的出现使得人们无法从中获得真正对决策或者预测起作用的信息,从而造成了数据存储上的浪费和运算上的困难。因此,如何从数据中快速、准确地获取有效信息便成为数据挖掘领域中的根本问题。正则化方法是近年来数据挖掘领域中的研究热点,通过整合新的信息对数学模型进行修正从而达到融合多种信息的目的。该方法被越来越多地运用于生物信息学、模式识别、人脸检测、图像聚类等领域中。因此,研究正则化方法在数据挖掘领域的应用具有深远的意义。 本文主要研究的是基于正则化方法的数据挖掘技术,全文就分类器设计、特征选择、聚类等问题提出了相应的算法,全文在提出正则化数学模型的同时分别给出了求解模型的算法及理论分析。本文主要工作概括如下: 1)首先介绍了本研究的目的、背景以及正则化方法在数据挖掘领域中的研究现状。其中相关的内容包括:正则化方法在分类器设计方面的研究现状;正则化方法在数据降维算法中的研究现状;正则化方法在聚类算法中的研究现状。 2)提出一种针对小样本分类问题具有鲁棒性的无参数稀疏表达分类器。传统稀疏表达分类器是一种有效的分类方法,但是该分类器的应用需要人为设置相关的稀疏化参数,显然对于不同的数据而言稀疏化参数都不相同。通过交叉验证的方式挑选参数是处理此类问题的可行方法,但是这将是一项时间复杂度非常高的工作。本文提出一种用加权字典替代原始样本并构造一种不定线性系统的策略,利用正则化稀疏范数实现对样本分类。本方法不需要人为设置参数,分类方法具有自适应性。 3)提出了用于特征选择的局部敏感Laplacian Score算法,本方法的主要思想是结合数据的流形结构考察特征对局部边界的贡献能力,如:同时考虑特征对极小化类内信息与极大化类间信息的能力。在进行有监督的特征选择时,数据的局部结构往往比全局特征有更好的判别能力,因此新算法从流形学习的角度定义了新的局部边界结构,扩展了基于距离的度量方式。特征的方差在一定程度上可以描述特征的显著性且方差越大的特征更具表达能力,作为一种信息增益方式,新算法从谱图理论的角度将方差信息作为正则项引入评价框架对特征选择进行综合考量,进而扩展了谱特征选择算法。 4)提出两种高效的批处理式特征选择算法,该方法同时考虑了多目标回归模型与图嵌入并在一个统一的优化模型中予以求解。由于模型中加入了结构化稀疏范数的约束条件使得本文提出的模型可以适用于特征选择。本方法有以下两个优势:(1)被选出的特征子集同时考虑了全局边界结构与局部流形结构,因此数据的全局结构与局部结构都得以保存;(2)特征的选择方式以批处理方式进行而非以贪婪策略实现,所以降维的同时特征间的相互作用得以保存。最后本文给出了数学模型的求解算法以及理论证明。在求解结构化稀疏问题时,本文提出一种基于迭代的优化算法从而避免了在非平滑优化问题中关于次梯度的求解,进而提高了算法的收敛速度。 5)提出一种基于图正则的非负稀疏PCA聚类算法,该方法同时考虑了数据的局部流形结构和稀疏约束因此扩展了基于非负矩阵分解的聚类算法。不同于现有的聚类算法本方法有以下两个优势:(1)与传统聚类算法如:k-means或者EM算法相比本方法不依赖于原始数据的分布特性,而前者的聚类结果均假设数据满足高斯分布规律;(2)由于稀疏约束与非负约束的加入,本方法有更好的判别性能。最后本文给出了聚类的数学模型、求解算法以及理论证明,在真实数据与虚拟数据的实验中也充分展现了本方法的优势。