维数约简研究及其在特征提取中的应用

被引量 : 8次 | 上传用户:sheng198208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对日益增长的海量数据,人们越来越多地依赖计算机智能化地从数据中得到问题解决所需要的有用信息。作为智能化数据分析的重要手段,维数约简技术不仅有效减低了处理过程的计算复杂度,也显著提高了数据分析的准确性和有效性。维数约简技术广泛应用于模式识别和计算机视觉领域,其中基于维数约简的特征提取已成为解决诸多相关问题的关键因素。尽管关于维数约简的研究已取得丰富的成果,但当前数据呈现出的高维数和多模态特点带来了新的挑战。在人脸图像识别、视频序列分析、文本与图像检索等实际应用的驱动下,维数约简技术通过对现有方法进行完善或探索新的理论方法获得了进一步的发展。本文立足于当前的数据形势,深入研究了关于向量数据和高阶数据的维数约简技术及其在特征提取中的应用问题。作为维数约简研究的一些新成果,本文提出的算法在数据可视化和人脸识别中得到了较好的应用。流形嵌入是目前非监督向量数据降维的研究热点,在探索数据的潜在结构上该方法具有优势。然而流形嵌入方法无法获得数据空间到低维特征空间的显式映射关系,故难于对新数据进行维数约简。针对这个问题,本文提出了面向流形的随机近邻投影(MSNP)用于非监督特征提取。MSNP算法在随机近邻嵌入(SNE)算法的启发下提出,基本想法是改善SNE算法的非线性流形展开能力和用显式的线性投影近似流形嵌入的非线性映射以适于特征提取任务。本文分析了SNE算法的不足,在以下三个方面进行了改进和完善:(1)提出在数据空间中用测地线距离代替欧氏距离构建随机近邻选择概率,从而提高了描述数据相似关系的准确性。(2)提出在低维特征空间使用柯西分布代替学生t分布构建随机近邻选择概率,以增强算法对数据的适应性。(3)在近邻概率分布保持的原则下引入线性投影得解决了新样本的维数约简问题,同时基于共轭梯度的迭代解法简明直观并具有比SNE更快的收敛速度。本文通过数据可视化、人脸识别和掌纹识别实验考察了MSNP的算法性能,包括投影基的性质、算法收敛性和特征提取能力。实验结果证明本文所提出的MSNP算法是一种有效的非监督向量数据降维方法,具有挖掘数据复杂模式的能力。在监督化向量数据降维方面,局部化线性鉴别分析方法考虑了数据的局部结构信息,提取鉴别特征的能力强于传统的全局线性鉴别方法。经过深入研究,本文发现已有的局部化线性鉴别方法普遍存在模型参数多且不易设置的问题。针对此问题,本文对局部线性鉴别分析的自适应问题进行了探索研究。本文提出了由同类局部近邻样本确定的局部邻域概念,其中的异类近邻样本能够自动被确定。在新的局部邻域内,同类和异类样本的分布反映了数据集不同局部的数据特性。据此,本文发展出了一种自适应的局部线性鉴别方法。该方法采用差分鉴别模型,模型中反映同类样本和异类样本权重的参数由局部近邻的特性自动设置。由于只需要同类近邻样本数这一个参数,本文提出的算法大大提高了局部线性鉴别分析在特征提取上的可用性。通过对人脸识别实验结果的分析,本文发现与已有的局部线性鉴别算法相比,所提出的自适应算法多数情况下能提升所得特征的鉴别能力,即便在训练数据极端少的情况下也取得了与已有方法相当的识别效果。对于如图像和视频这一类的高阶数据,近几年兴起的张量化维数约简方法基于数据的张量模型利用多重线性投影以获得数据的线性结构。尽管也出现了如张量LPP和张量NPE这样的方法试图获取张量数据的非线性结构信息,但基于多重线性投影的降维方式导致非线性结构信息在降维过程中不可避免地遭到损失。本文从张量数据采样自低维非线性流形的假设出发,提出了一种直接获得张量数据的低维嵌入(即参数化坐标)的非监督降维算法。该算法利用局部秩一张量投影所得到的低维向量来刻画张量数据的局部线性结构,然后在局部坐标全局化排列的原则下由局部仿射变换得到张量的全局性低维表示。由于维数约简过程依赖于一个非线性映射,本文提出的算法能有效挖掘张量数据的非线性结构。此外,为了方便特征提取,本文基于数值插值方法给出了张量嵌入的一种泛化方案。数据可视化的实验结果表明,本文提出的张量嵌入方法能有效发现张量数据流形的潜在结构,而人脸图像识别上的实验结果证明所提算法经过泛化扩展后能从张量数据中提取出有效的模式特征。本文针对张量数据的监督化特征提取问题,提出了一种新的张量化降维算法---“局部鉴别化正交秩一张量投影”(LDOROTP)。该算法的目标是从张量数据中提取出紧凑的特征并同时赋予特征相当的鉴别能力。LDOROTP算法通过正交秩一张量投影获得张量数据的向量形式的特征,并通过局部鉴别分析求取最优的投影张量基。与已有的算法相比,本文所提出的算法创新点在于:(1)局部鉴别分析采用所有的同类样本和适当数量的异类近邻样本;(2)在局部邻接图中引入新的加权函数对局部鉴别信息进行编码。LDOROTP算法的目标函数建立在差分鉴别模型上,避免了难以处理的奇异矩阵求逆问题。除此之外,LDOROTP算法对于秩一张量的正交性约束提出了轮换正交的策略,增强了算法结果的稳定性。本文提出的算法在人脸图像特征问题上进行了验证,实验结果证明LDOROTP算法在提取张量数据的鉴别特征方面是有效的。
其他文献
通过加标回收和野外水样测定,对用于淡水可溶性硅测定的4种比色法进行比较,同时研究了实验过程中玻璃容器对4种方法测定结果的影响以及磷酸根离子对显色的干扰.结果表明:1,2,4氨基
俄罗斯大果沙棘以其优良的经济性状、水土保持和生态功效越来越受到人们的青睐,近年来苗木需求量很大,嫩枝扦插苗木培育技术的成熟与产业化大大提高了苗木的供给,但是目前对
PE100级管材料是一种高等级聚乙烯(PE)压力管材料,被广泛应用于燃气管、给水管、输油管等。我国PE压力管材料年需求量在60万吨以上,且以每年8%的速度增长,市场需求潜力巨大。
在矿产开发的过程中,会产生大量废弃的尾矿。这些尾矿暴露在空气中,使得其中的硫化物在化学和生物氧化相互作用下形成了强酸性(pH<5),富含硫酸根和大量溶解性重金属离子的酸性矿
目的观察耳穴贴压配合推拿和药物对气滞血瘀型原发性痛经的疗效,比较其差异。方法选取我院手机的60例辩证为气滞血瘀证的原发性痛经患者,用随机分配的方法,分为治疗组和对照
深度分销约在八十年代晚期引入中国,最初目的是由企业去帮助经销商全面了解,接受和实践企业自身的营销思想、营销策略和方法。同时协同经销商一起进行终端网络的建设与完善,
长期以来,历史成本一直是计量的主要模式,随着经济的发展,特别是衍生金融工具的不断涌现,历史成本逐渐难以应付局面。2006年我国财政部颁布了新企业会计准则,会计计量中对公
分布式跨域电子病历信息共享技术的研究、实现和应用需要整合和共享各协作医疗机构的病人电子信息。如果协作的各医疗机构关于病人电子病历信息的数据格式定义不一致,会严重
电容层析成像技术是检测两相流或多相流的过程检测技术,在工业领域中有着广泛的用途.要实现电容层析成像的图像重建工作必须先获得精确的灵敏度场数据,但是求取电容层析成像
当前,我国面临着一系列发电方面的问题。为了解决双馈异步风力发电机组的变频器发生的各种问题,我们必须注重实际操作的性能,将有效解决双馈异步风力发电机组的变频器产生速