低维低秩数据表达与嵌入

被引量 : 0次 | 上传用户:gyl5667661
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对当前日益增长的大量数据,越来越多的机器学习算法将从大量数据中获得问题求解所需要用到的有效信息。作为大规模智能化数据分析与处理的重要方法,低维低秩技术不仅有效降低了数据处理过程中的计算复杂度,同时也显著提高了大规模数据分析的准确率。低维低秩技术广泛应用于模式识别和机器学习领域,已经成为解决各行各业相关诸多问题的关键技术。尽管关于低维低秩的研究已经取得了丰富的成果,但由于当前应用中数据的高维度含噪声特点,应用工作又面对了新的挑战。在机器视觉、生物数据分析、金融数据分析、文本及图像检索等应用工作的推动下,低维低秩技术通过对现存方法进行完善并开始探索新的研究方法。本文在研究大规模数据的基础上,深入研究了关于向量数据和高维数据的低维低秩技术及其在各类领域中的应用问题。作为低维低秩研究的这些新成果,本文在多个研究方面进行了相关工作,取得的模型及其求解算法在人脸识别、手写体字符识别、生物数据分析等领域得到了很好的应用。本文中,我们将研究在含有噪声的数据上进行维度约减和子空间提取工作的相关模型及其算法。首先分析了基于trace-norm的经典算法,然后研究可以进行直接低秩工作的正则化方法,这种方法可以直接应用于数据聚类工作。针对我们需要解决的低秩数据聚类问题,本文在l1范式约束上分别加上正交约束以及非负约束。这两种模型可以同时保持住直接对数据进行低秩的能力,数据嵌入的维度意义非常清晰明了。本文同时还研究了有效的算法来求解这两种基于l1范式的优化问题。我们将这两个模型应用于人脸数据集、手写体字符集以及基因表达数据集上,进行了丰富的实验工作。实验结果表明,本文中的低秩去噪模型对于聚类以及半监督分类工作有着非常好的效果。现存的很多机器学习应用工作中,会处理大量各种含有噪声的数据。本文中,我们研究一种鲁棒的低秩表示模型,此模型可以处理现实中的含噪声数据。我们同时也研究求解该模型的优化方法,保证模型可以收敛到全局最优解。与目前已知的低秩表示方法不同,我们研究的模型期望计算向量组合的最稀疏表示,其中的数据有部分已经被破坏;同时,我们将模型的秩降到整个数据集的类别数。不论从理论角度或是实验角度看,这种低秩表示模型都是一个有力的数据预处理方法。在基于前述稀疏学习的基础上,本文研究将变量相关度加入基于稀疏学习的变量选择模型中。可以看到,在以往的类LASSO变量选择工作中没有考虑变量相关度。而在大部分现实应用的数据中,预测因子常常是相关的。强相关的预测因子会有相似的属性,并含有一些重复信息。尤其当被选出因子的数量较为有限时,我们需要这些被选出的因子含有较多的信息,所以希望模型尽量不要选出相关度较高的预测因子。强相关的预测因子最好只被挑出一个,它将会含有大量的信息。以我们了解的目前文献看,现存的类LASSO变量选择方法没有考虑变量相关度。我们研究“不相关LASSO变量选择”模型;接着对这个模型进行理论分析,研究解决它的有效迭代算法并证明了其收敛性。我们在两个著名的基因数据集上验证了模型的有效性。目前,许多数据应用工作带来越来越多的高维及含有噪声的数据。在本文中,我们仍然考虑维度约减工作,同时考虑去噪相关工作。本文中,我们研究将局部线性映射(LLE)模型中的两个步骤(计算近邻点和计算权值)进行结合,整合成为一套独立而完整的体系。我们将这种方法称为鲁棒的集成局部线性嵌入模型。模型通过基于l2,1-l2混合范式的优化问题进行去噪工作。本文同时也研究了一种有效的算法来求解这个模型,在各类数据集上进行了丰富的实验来证明模型的有效性。实验发现,我们研究的集成局部线性嵌入模型在去噪、嵌入和聚类工作中有着很好的效果。
其他文献
随着IT市场竞争不断加剧,如何提升软件质量、缩短软件迭代开发周期,对软件测试方法和工具提出了更高要求。传统手工测试存在周期长、效率低、回归测试覆盖度不高等问题,自动
目的:探讨护理专业学生人际沟通能力的评价工具及测评方法的有效性。方法:通过参考文献形成人际沟通能力评价量表,运用自制量表对120名护理专业五年制高职女学生进行人际沟通
液晶显示器(LCD)市场保有量巨大,其中铟回收过程中其他金属也会伴随铟而存在于回收过程,因此液晶显示器的无害化、资源化以及污染控制已成为当物之急。本文以废TFT-LCDs面板
非经营性投资项目与国计民生密切相关,在政府投资中所占比重较大,而且随着市场改革的深化,政府在基础性项目和公益性项目上投资还会进一步增加。然而,非经营性投资项目在管理
支持向量机(Support Vector Machine,简称SVM)是在20世纪90年代中期,由Vapnik提出的一种基于统计学习理论的机器学习算法,目前已应用于很多领域中。在支持向量机应用中,核函
作为依托于信用卡而实施的犯罪行为,恶意透支型信用卡诈骗因信用卡的迅速普及而呈现上升趋势,且犯罪手段具有多样性。与传统类型的信用卡诈骗方式不同,恶意透支可谓是信用卡诈骗
恶意透支型信用卡犯罪虽然仅作为信用卡诈骗罪的多种行为方式之一,却毫无争议的呈现最高发之态势,立法者从各方考量确定了此种犯罪的轻刑化立法模式。但是司法实践中针对该类
《英国病人》是加拿大著名作家迈克尔·翁达杰(Michael Ondaatje,1943-)最成功的一部小说,曾获得英国布克奖和加拿大总督奖,1996年根据小说改编的同名电影更是获得了巨大的成
在媒体融合的大背景下,面对舆论生态、媒体格局和传播方式的巨变,传媒行业对从业人员的素质要求也逐渐呈现出多样化、复合型特点。笔者从国内大型媒体的招聘启事中进行关键词
当代爱国主义首先是人本主义、人道主义。自古以来,在我们这个多灾多难的国度,从来都不缺乏爱国者。在民族危亡的关头,我们太多仁人志士面对外侮,舍身取义——“可以托六尺之