基于流形的半监督分类方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:choster
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
半监督学习,特别是关于数据聚类的半监督学习方法,是机器学习领域近年来广受关注的研究方向。非线性流形降维和再生核空间是两个非常重要的研究内容。本文重点研究用于数据聚类的非线性降维方法和基于部分的属类异同信息下的核(kernel)学习方法,及其导出的聚类算法。我们的主要成果分成两部分:基于属类概率的数据降维和基于点对属类异同概率的kernel学习。这两部分互相关联,核学习方法也可用于数据降维。一、关于数据聚类的非线性降维方法。1.我们提出了基于属类概率预估的非线性降维方法PLLE。其主要特点是将属类概率向量用于距离函数的构造。这个距离函数,不同于通常的欧几里得距离或流形测地距离,它既保持了欧几里得距离的部分特性,也具有元素属类的特性。与原先提出的只适用于部分训练点集的方式相比,这一距离函数适用于整个训练集和测试集,因而具有整体性。PLLE结合了经典的(用于无监督问题的)非线性降维方法LLE的思想,更具有半监督分类的特点。它克服了一般流形学习算法在处理监督信息上的缺憾。2.PLLE算法的关键部分是属类概率向量的估计。我们进一步提出了预估属类概率向量的PE算法。它基于经典的逻辑回归(LD)思想。数值实验证明,PLLE与PE结合后得到的PLLEc算法是一个性能卓越的有监督分类算法。3.我们将属类概率预估的思想用于拉普拉斯特征映射(LE)方法,进行数据降维,提出了具有属类信息的半监督降维的PLE算法,这可用于数据聚类。PLE算法中所需的属类概率预估,可以采用前述的PE方法得到,也可以用我们提出的基于kernel学习的方法估计。二、基于部分属类异同信息的核(kernel)学习。1.对于具有部分属类异同信息的数据,现有许多算法是通过寻找最佳线性投影来完成降维任务的,这类方法的效果对于数据的分布非常敏感。针对这一问题,我们给出了一种创新性的分类可靠性函数以及概率向量的确定方式。它基于由点对约束传播(PCP)方法得到的kernel矩阵。我们将其用于PLE方法,提出了称为PCP-PLE的分类算法,及其改进了的结合维数类别数因素的PCP-PLE~*降维方法。这些算法由于包含了具有分类效果的隐式映射,因此,对于任何形式的数据分布均可有效完成保持属类异同信息的降维工作,实验表明,PCP-PLE~*要优于一些最新的基于同样背景的算法。2.点对约束传播的kernel学习算法PCP在应用中具有一定的局限性。我们详细研究了其特点,发现用由PCP得到的核矩阵作核形式的K-means聚类时,所得分类的规范共信度值并不随着已知的属类相同信息量的增加而改善。PCP更依赖于已知属类异同点对的分布。根据PCP的弱点,提出了一种具有点对之间属类异同的概率约束传播的kernel学习算法PPCP。在很多情形下,PPCP可能比PCP更加有效。更为重要的是:基于我们提出的属类异同可靠性估计方法,PPCP可以用于无任何先验的点对属类异同信息。因而可作为一种无监督的聚类算法,这更有利于实际应用。3.在可靠性函数的基础上,我们提出了一种主动的kernel学习算法:active-PCP和active-PPCP。该算法能够自适应地搜索对分类起消极作用的点对,并对其进行去除或者松弛约束的处理,进而提升分类效果。此外,我们最新研究的有关自动扩张约束集合以改进分类的工作也在文中进行了介绍和讨论。全文由六章组成。第一章为读者阐述了本文课题的研究背景、发展现状以及文章的主要科研成果。第二章简介流形学习和核方法领域的经典工作。第三章主要描述了PLLE,PE,PLLEc,PLE算法。第四章详细介绍了PCP、K-means方法以及聚类有效性指标NMI,给出了PCP-PLE,PCP-KPCA和PCP-PLE~*算法。第五章提出了PPCP,PCP(PPCP)-Kmeans,active-PCP(PPCP)以及扩张的PCP(PPCP)算法。第六章总结了全文的工作,并对后续的研究课题加以展望。
其他文献
本文通过对农业居间技术历史渊源的追溯,深入阐述农业居间技术发展的特点,指出必须要在传统农业与现代农业科技之间寻找一个折中点、妥协点,而农业居间技术是一种处于现代农业科
就目前来说,网络广告的整体发展在全世界尤其在国内都还处于探索发展阶段,网络广告中创意与设计的相关理论研究也是处于起步时期。基于此,本文对网络广告设计的研究提出三个
要实现阿坝旅游二次创业,以旅游腾飞助推阿坝经济再上台阶。围绕此问题,笔者相继到红原、松潘、九寨沟、茂县等地,以座谈、实地考察、游客访问等形式,围绕阿坝旅游发展中存在的突
[摘要] 外商直接投资(FDI)对我国的经济增长起着重要作用,然而FDI在我国的分布极不平衡。本文通过现状层面、实证角度的分析,比较东、西部吸引FDI的区位差异的影响因素。   [关键词] 外商直接投资 区位选择 西部    从区域分布看,我国的FDI明显呈现出“东高西低”的格局。20世纪90年代由计划经济体制向市场经济体制转型以来,我国FDI的流入得到了飞速发展。2004年我国实际流入FDI达6
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
加强党校图书管理工作是新的信息和网络时代的客观要求以及为党校提供更高水平的图书管理服务的内在需要,本文对加强党校图书管理工作必要性进行了探讨,并提出了几条实现的途径
[摘 要] 市场中的经济人假设在当前的信息下经济人按照对自己最有利的方式进行经济活动。当然在存货的期末计量和处理上也要遵循这一原则。  [关键词] 经济人 原材料存货 期末计量 可变现净值 违约成本    存货(包括价值大的原材料、半成品、加工中的在加工品等)在期末我们可以将他用于生产产品,可以用于出卖,也可以用于等待作为后备材料,但是我们必须清楚一点,那就是他的处理必须本着使企业的经济利益最大化
构建全方位的网络安全体系是新时期网络信息化管理建设重要工作,在新形势下,高校如何做好网络运营安全,保障用户信息安全,引导网络舆情,构建全方位的教育网络安全空间已成为
非正式科学教育对青少年科学素质的提升具有重要意义。国外经过30多年的发展,对于非正式科学教育的研究已趋于完善,主要是以美国为主,但国内在这方面的研究还甚少。通过对北
随着通信技术的飞速发展,系统的网络化需求不断提高,传统的点对点的控制策略已经不能满足对控制系统的性能要求,点对点的结构在很多场合逐渐被通信网络所取代,系统中的传感器