基于流形学习的局部降维算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:suguangli1507
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据降维算法在图像、声音和视频分析领域有着广阔的应用前景。近年来数据降维算法受到越来越多研究人员的关注。流形学习降维算法主要分为线性降维算法和非线性降维算法。主分量分析算法是线性降维算法的代表,其特点是通过对现有数据样本的分析,学习到一个映射矩阵,然后通过对数据样本的线性映射将高维空间的数据映射至低维空间,线性降维算法的优点是计算复杂度低,但对本质非线性分布的数据降维效果并不好,即在降维过程中会损失数据分布的一些重要特征。等距映射算法、局部线性嵌入算法及拉普拉斯映射算法是非线性降维算法的代表,其特点是通过非线性映射的方式将数据从高维空间映射至低维空间,具体又分为全局降维算法及局部降维算法。等距映射算法就是典型的全局降维算法,其特点是在降维过程中尽量保持数据分布的全局结构,算法优点是保证全局结构不变,缺点是计算复杂度高不适合实时应用。局部线性嵌入算法及拉普拉斯映射算法则是典型的局部降维算法,其优点是在降维过程中只保证数据分布的局部结构,这样降维后数据的整体分布会有所变形,但计算复杂度低,适合实时应用。论文首先介绍了一些经典的流形学习算法,并对现有流形学习算法进行分析,指出当前流形学习算法普遍存在的问题及主要研究热点,并据此展开如下研究:首先,针对传统流形学习降维算法中相似性度量问题,提出两种基于马氏距离度量的流形学习降维算法,两种算法分别将马氏距离度量应用于局部线性嵌入算法及拉普拉斯映射算法的近邻确定过程及新样本的识别过程。算法通过对现有数据样本的分析得出马氏度量的系数矩阵,再根据得到的马氏度量计算每个数据样本的近邻,继而进行数据从高维空间向低维空间的非线性映射。同样在新样本的降维及识别过程中也要用马氏度量确定其近邻及最终所属分类。其次,针对高维数据本质结构问题,提出自适应局部线性嵌入算法,传统流形学习降维算法通常依靠K近邻算法确定每个数据样本的近邻数,但K值如何获取却少有方法,通常使用的试凑法需要耗费较多时间,因此提出自适应局部线性嵌入算法,根据数据样本分布情况,自动为每个数据样本指定一个合适的阈值,当其他样本与该样本的距离小于此阈值时,则确定其为该样本的近邻,否则不是该样本的近邻。算法不但解决了流形学习降维算法中的K值选取的问题,而且根据数据样本分布情况为每个数据样本指定不同的K值,相对于传统流形学习降维算法中为每个样本指定相同K值的方式,自适应局部线性嵌入算法更合理。再次,针对图像降维算法需要将图像数据转变为图像向量的问题,提出一种线性的二维降维算法——改进的基于模块的主分量分析算法,该算法是对基于模块的主分量分析算法的一个改进,改变了原算法中图像均值计算方法及新样本识别方法,还通过理论分析证明了二维主分量分析算法是改进算法的一个特例。最后,针对图像降维算法需要将图像数据转变为图像向量的问题,提出一种非线性的二维降维算法——二维局部线性嵌入算法,算法通过理论分析指出二维主分量分析算法实质是基于行的主分量分析算法,而局部线性嵌入算法又可以看作主分量分析算法的一个非线性扩展,基于以上原因提出基于行(或列)的局部线性嵌入算法——二维局部线性嵌入算法。
其他文献
利用高分辨率显微CT实验系统,对农安、长庆和大庆的油页岩从100℃到600℃不同温度下的细观变化进行了CT测试。通过对比100℃与600℃三个矿区油页岩CT图像的变化,实验结果揭示
目的:观察新生化冲剂在药物流产的应用效果。方法:将确诊为非带器早孕健康妇女384例随机分为两组,计算率与χ^2检验比较两组流产效果、药流后阴道出血量及阴道出血时间。结果:观
我国基本经济制度是以公有制为主体多种所有制经济共同发展,民营经济是国有经济的重要组成部分,小微企业是民营经济的一部分,是推动国家信息科技和自主创新进步的有生力量,与
心肌梗死一级预防是针对所有尚未发生心肌梗死,但存在高龄大于50岁、高血压、糖尿病、高脂血症、吸烟、冠心病家庭史等高危因素的人群所采取的预防措施,预防首次心肌梗死的发生
瑞雪轻飞,明灯高挑。烟花流彩如梅俏。门窗净亮等人归,枝横梦里栖青鸟。晓望长街,夕寻小道。高堂极目炊烟袅。朱红剪纸送春来,喧腾年夜千家笑。
案件资料 患者,女.汉族,45岁。于2004年6月24日因功血在某中医医院妇科门诊就诊,并于13时许在该院急诊科输液室输液,第1批液体为5%葡萄糖液+止血敏4g,静滴顺利;第2批液体为5%葡萄糖液+黄
在古代韩国,作诗是一门有实际用处的技能。它是评定一个人是否有能力担任公职为国效劳的主要标准之一,也是衡量一个人的人格修养的尺度。对待诗的这种态度产生了某些有趣的后
目的研究红毛五加多糖提取及含量测定的最佳条件。方法用正交实验法分别优选苯酚硫酸比色法测定红毛五加多糖含量的最佳条件和红毛五加多糖的最佳提取工艺。结果最佳测定条件
期刊
随着"营改增"政策的全面推进,各行各业在税收改革方面都做出了重大调整,但在此过程中却遇到了诸多现实困境。尤其是对于环保行业来讲,在税收筹划方面的问题相对突出,面临着税