基于微分流形的非线性降维方法研究

来源 :上海大学 | 被引量 : 3次 | 上传用户:ahzhangxz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现今信息时代中,文字、声音、图像等几乎所有的信息载体均以高维非结构化数据的形式进行存储、处理和传输。但是,高维数据难以直接被现有的机器学习、数据挖掘和数据分析算法有效的处理。如何在海量繁杂的高维数据中找出影响其变化或分布的潜在关键因素是信息科学领域中的基本问题。数据降维是解决这类问题的主要技术手段,包括线性降维和非线性降维两类方法。由于现实数据的分布往往具有非线性的特点,线性降维方法在实际应用中受到了很大的限制。因此,非线性降维方法成为解决这类问题的主要方法,在机器学习、计算机视觉、数据挖掘和图像分析等众多领域得到了广泛的研究,是该领域的研究热点之一。目前,数据的非线性降维方法主要包括基于神经网络的方法、基于核函数的方法和流形学习方法。其中,流形学习方法因其具有清晰的几何解释和生物学依据吸引了广泛的关注。但是,现阶段流形学习方法仍处于理论研究阶段,存在着许多问题阻碍着其实际应用。本文重点针对流形学习方法中的邻域选择、嵌入方法和高维数据预处理等关键问题,开展理论方法和仿真实验研究。首先通过算法解析现有流形学习方法如Isomap、LLE、LTSA等的优缺点,以及在人脸识别与头部姿态估计和人体三维步态捕获问题中的应用。根据计算机视觉中人脸识别与头部姿态估计两者相互作用的现象,通过使用近邻图构建覆盖,定义点到流形的距离等方法和手段,提出一种对于人脸识别与头部姿势估计问题的整体解决方案,并通过对FacePix数据集的仿真实验验证了方法的有效性。基于流形反映运动变化规律这一特性,利用Isomap方法找出像素空间和人体骨架点空间中的低维步态流形,采用广义回归神经网络建立图像、步态流形、人体骨架点之间的映射关系,达到从图像中获取人体三维步态信息的目的,并采用Weizamann人体行为数据库和卡内基梅隆大学运动捕捉数据库,通过实验验证了方法的有效性。其次,分析降维效果的评价指标和现有邻域选取方法的缺陷。针对目前邻域选取方法存在的短路现象和曲率差异过大等问题,使用奇异值分解、余弦定理等数学工具,通过分析合理邻域的特性,提出两种基于流形曲率变化的自适应最大线性邻域选择方法,即基于法空间夹角的邻域选择方法和基于数据点分布的邻域选择方法。进一步地,针对经典流形学习方法对于邻域参数选取敏感的问题,以Isomap和LLE两种方法为例,提出了改进算法,通过使用最大线性邻域替代固定邻域,并在目标函数中引入权重,以提升降维效果和降维鲁棒性。另外,基于微分几何中流形的定义,提出了一种基于图集相容性转换的流形学习方法。通过分析‘图集’和‘相容性条件’,及其在散乱点云数据中的物理意义,使用PCA和仿射变换等数学方法,构建最小化邻域交集点嵌入坐标误差的目标函数,将其转化为带约束的极值问题。采用拉格朗日乘子法研究该问题的广义特征向量求解方法,并给出增量学习和重构问题的解决方案。通过在散乱点云数据集、Isomap人脸图像数据集和LLE人脸图像数据集上的降维和重构实验,验证了该方法的有效性。最后,针对高维数据集中的噪声和数据点分布不均匀情况下,会导致流形降维误差增大的问题,对含有不同强度噪声和不同稀疏度的数据集的降维结果进行了分析。提出了去除噪声和数据插值的预处理方法,使用线性投影、坐标系变换、快速凸包算法等手段,去除噪声并使数据点的分布相对均匀。通过对散乱点云数据集进行数据预处理,并进行降维实验验证了方法的有效性。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
期刊
目的探讨颈段食管憩摩的临床特点、诊断和治疗方法,避免误诊甲状腺癌。方法 回顾性分性分析颈段食管憩窜误诊为甲状腺癌的临床资料,5例患者均术前误诊为甲状腺癌,其中Zenker憩审
视频监控是城市公共安全领域一项重要的监控手段。随着监控摄像头数目和监控视频数据量的急剧上升,传统基于人工操作的监控方式越来越难以满足需求,亟需发展基于智能算法的视
修道成仙思想是道教思想的核心,古人为追求长生成仙做了诸多的尝试,到了明代,道德修炼成仙盛行,这一成仙观念也反映到当时的文本中。'三言'中有19篇涉及成仙的故事,
目的:观察在念珠菌性阴道炎复发时采用氟康唑联合克霉唑治疗的临床意义。方法:将笔者所在医院妇科门诊2015年1-12月收治的念珠菌性阴道炎复发患者200例,随机分为对照组(100例
医学图像融合是对多幅不同模态的医学图像进行信息综合,合成一幅包含所有源图像重要信息的融合图像的过程。该技术充分利用不同模态医学图像提供病灶信息的冗余性和互补性,以
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
二进制代码逆向分析是一种针对二进制代码的程序分析技术。它在源代码无法获取的情形中至关重要。如在恶意软件检测与分析中,由于恶意软件作者往往不公开源代码,二进制代码逆
类比手法在中学教材中是一种常见手法,然而在教学实践中,类比却没有得到足够的重视。教材分析时,我们对类比现象不敏感,对类比的意义认识不足;作文教学时,又不懂得类比思维的运用。
“云计算”(Cloud Computing)是一种新型计算模式,它将计算资源存储在可配置的计算资源共享池中,通过便利的、可用的、按需的网络访问计算资源。由于云计算服务商在云计算中