正则化方法在数据挖掘中的应用与研究

来源 :湖南大学 | 被引量 : 3次 | 上传用户:cs333333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展尤其是高通量技术的进步,数据已成为各行业接触最多,使用最为频繁的信息载体。但海量数据的出现使得人们无法从中获得真正对决策或者预测起作用的信息,从而造成了数据存储上的浪费和运算上的困难。因此,如何从数据中快速、准确地获取有效信息便成为数据挖掘领域中的根本问题。正则化方法是近年来数据挖掘领域中的研究热点,通过整合新的信息对数学模型进行修正从而达到融合多种信息的目的。该方法被越来越多地运用于生物信息学、模式识别、人脸检测、图像聚类等领域中。因此,研究正则化方法在数据挖掘领域的应用具有深远的意义。  本文主要研究的是基于正则化方法的数据挖掘技术,全文就分类器设计、特征选择、聚类等问题提出了相应的算法,全文在提出正则化数学模型的同时分别给出了求解模型的算法及理论分析。本文主要工作概括如下:  1)首先介绍了本研究的目的、背景以及正则化方法在数据挖掘领域中的研究现状。其中相关的内容包括:正则化方法在分类器设计方面的研究现状;正则化方法在数据降维算法中的研究现状;正则化方法在聚类算法中的研究现状。  2)提出一种针对小样本分类问题具有鲁棒性的无参数稀疏表达分类器。传统稀疏表达分类器是一种有效的分类方法,但是该分类器的应用需要人为设置相关的稀疏化参数,显然对于不同的数据而言稀疏化参数都不相同。通过交叉验证的方式挑选参数是处理此类问题的可行方法,但是这将是一项时间复杂度非常高的工作。本文提出一种用加权字典替代原始样本并构造一种不定线性系统的策略,利用正则化稀疏范数实现对样本分类。本方法不需要人为设置参数,分类方法具有自适应性。  3)提出了用于特征选择的局部敏感Laplacian Score算法,本方法的主要思想是结合数据的流形结构考察特征对局部边界的贡献能力,如:同时考虑特征对极小化类内信息与极大化类间信息的能力。在进行有监督的特征选择时,数据的局部结构往往比全局特征有更好的判别能力,因此新算法从流形学习的角度定义了新的局部边界结构,扩展了基于距离的度量方式。特征的方差在一定程度上可以描述特征的显著性且方差越大的特征更具表达能力,作为一种信息增益方式,新算法从谱图理论的角度将方差信息作为正则项引入评价框架对特征选择进行综合考量,进而扩展了谱特征选择算法。  4)提出两种高效的批处理式特征选择算法,该方法同时考虑了多目标回归模型与图嵌入并在一个统一的优化模型中予以求解。由于模型中加入了结构化稀疏范数的约束条件使得本文提出的模型可以适用于特征选择。本方法有以下两个优势:(1)被选出的特征子集同时考虑了全局边界结构与局部流形结构,因此数据的全局结构与局部结构都得以保存;(2)特征的选择方式以批处理方式进行而非以贪婪策略实现,所以降维的同时特征间的相互作用得以保存。最后本文给出了数学模型的求解算法以及理论证明。在求解结构化稀疏问题时,本文提出一种基于迭代的优化算法从而避免了在非平滑优化问题中关于次梯度的求解,进而提高了算法的收敛速度。  5)提出一种基于图正则的非负稀疏PCA聚类算法,该方法同时考虑了数据的局部流形结构和稀疏约束因此扩展了基于非负矩阵分解的聚类算法。不同于现有的聚类算法本方法有以下两个优势:(1)与传统聚类算法如:k-means或者EM算法相比本方法不依赖于原始数据的分布特性,而前者的聚类结果均假设数据满足高斯分布规律;(2)由于稀疏约束与非负约束的加入,本方法有更好的判别性能。最后本文给出了聚类的数学模型、求解算法以及理论证明,在真实数据与虚拟数据的实验中也充分展现了本方法的优势。
其他文献
随着网络社会的到来与电子商务的日趋普及,传统的依赖信物或口令的系统安全性技术已经面临严峻的挑战。随之而来的生物识别已经成为安全技术研究的热点。其中自动指纹识别技
随着现代企业管理的规范化和企业规模的不断扩大,企业的经营管理,已经不仅仅局限在某一个固定的区域或国家,越来越多的工作,需要通过多个员工,多个部门来共同完成。现代企业的管理
大学生综合素质评价是高校学生管理的重要内容之一,传统的描述性的定性评价方法往往是定性分析或者单因素的定量评价,往往存在主观片面,不够准确、不够全面的问题,已经不能适应现
迁移工作流是近年来工作流管理研究的一个新方向,并且被解释为运行期间在工作位置上合并静态工作流说明、本地规则和策略、以及用户策略的效应。迁移工作流管理系统的三要素是
密码体制的设计和研究都是在Kerckhoff假设前提下进行的。一般情况下密码体制由密码算法和密钥组成,Kerckhoff假设要求密码体制的研究不能以敌人不清楚密码算法为前提,在这样
近来Internet上有越来越多的QoS要求的组播应用的涌现,如视频会议、网络音频/视频广播、远程教育、软件更新等,这加速了网络对可扩展的有效的组播通信方式支持的需要。与单播通
工作流技术满足了企业对其业务过程不断地进行优化以及重组的需求,给企业的业务过程管理带来了很大的益处,使得企业实现了办公自动化,从而提高了企业的办事效率,改进了客户服务,增
粗糙集理论是上世纪八十年代初由波兰数学家Pawlak首先提出的一种用于数据分析的数学理论,属性约简是粗糙集理论研究中的核心问题之一,也是粗糙集有效算法研究的焦点。其基本
迁移工作流是将移动计算技术应用于工作流管理的一项新技术。工作流业务过程根据业务目标的复杂程度被映射为一个或多个迁移实例,每个迁移实例执行一个目标相对独立的子业务
随着Internet和电子商务的兴起与发展,越来越多的企业在寻求涉及Internet和基于Web技术的解决方案,企业用户对应用服务的需求不断增大,软件市场正面临着一场重大的变革。随着