基于图嵌入的高维小样本特征提取方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:caoenjia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的进步,越来越多的观测高维数据出现很多实际应用问题中,如自然语言处理、图像检索、人脸识别等。尽管高维数据可以提供丰富的信息,但是也会带来数据传输、存储以及处理等困难。直接处理高维数据会消耗大量的存储和计算资源,使得数据处理的效率变得低下,同时高维数据中还存在很多冗余和噪声信息,这会严重影响数据的检索、分类识别等任务性能。特别是在小样本的情况,很多复杂的方法容易产生“过拟合”的现象,从而导致方法的失效。维数简约,有时也称为降维,是一种重要的处理高维数据的方法,其目的是通过一定的方式将数据由高维空间变换到低维空间中而不损失重要的信息。特征提取是一类重要的维数简约方法,利用特征提取不仅可以获得数据的低维表示,极大地提高数据处理的效率,同时还能剔除高维数据中的冗余和噪声信息,从而提高数据的分类识别、可视化等任务的性能。从图嵌入的观点来看,大多数特征提取方法的不同之处在于它们构造的加权图和嵌入方式的不一样。例如经典的PCA和LDA就是利用数据的全局信息来构造数据间的关系图。尽管现有的一些特征提取方法已经取得了不错的性能,但是它们仍然存在判别能力不足,图构造不稳健等问题。本论文重点关注高维数据的特征提取方法,以高维小样本数据为研究对象,以图嵌入判别分析方法为基础,研究了基于图嵌入框架下的特征提取方法。针对现有的特征提取方法的性能局限性提出几种有效的特征提取方法,包括监督的线性和非线性特征提取方法以及无监督线性特征提取方法。具体的研究工作包括以下几个方面:1、协同表示投影利用协同表示系数来描述样本间的关系,其忽略样本的类别信息,且当训练样本较少时其存在较大的重构误差,从而导致了该方法的判别能力不足。针对该问题,同时考虑样本空间和特征值空间的信息,提出了一种最小特征值矢量协同的判别投影(MECRDP)方法。该方法利用原始样本数据和最小特征矢量对样本进行重构,在样本数目较少时可以有效减小重构误差,同时在投影空间保持更多的协同表示关系。另一方面,借鉴判别分析的思想,样本的类别信息和重构样本类间散度矩阵被引入判别分析方法中,提高了样本在投影空间的判别性。实验结果验证了所提的方法具有优异的性能。2、由于稀疏表示或者协同表示的表示系数容易受到样本的增加或者移除的影响,这使得其定义的局部结构关系不够稳健。针对这一问题,提出了一种相似性有序保持判别(SOPDA)方法。该方法利用样本的相似性关系来定义样本间的稳定全局结构关系,并构造了一个类内相似性有序矩阵来获得更稳健的样本局部关系,然后在投影空间中保持这种全局和局部关系。此外,一个尺度参数被引入类内散度来平衡样本的类内分布和类间分布。实验结果表明提出的方法可以取得比其他方法更好且对投影维数更稳健的性能,比如在FERET数据集上该方法比其他的方分类准确率提升了大约3%~5%。3、基于核的协同表示投影是协同表示投影的拓展方法,其在处理非线性特征提取问题时判别能力较差,针对该问题,利用核技巧和协同表示投影方法,提出了一种核的类内协同保持判别投影(KWCCPDP)方法。该方法首先将样本映射到一个核空间,然后获得样本的协同重构关系,并在低维投影空间中保持同类样本的这种关系。进一步,利用判别分析的思想,通过最小化样本在投影空间的类内间距和最大化类间间距来获得最优的低维投影矩阵,从而提高投影特征的判别性。为了求解KWCCPDP的最优投影矩阵,提出了一种两步特征值分解方法,理论分析表明当训练样本个数大于样本类别数目的两倍时该方法可以获得稳定的解。仿真实验验证了所提方法的有效性。4、由于现有无监督特征提取方法没有充分的利用样本的全局和局部结构信息,这会降低样本在低维空间中的判别性。针对这一问题,提出了一种全局近邻保持聚类特征提取(GNPCFE)方法。为了提高样本在投影空间中的判别性,首先利用互为k近邻的样本来定义其的局部结构,并借鉴监督的判别分析思想,使那些互为k近邻的样本间在低维空间中有较小的间距,而不为k近邻的样本间有较大的间距。其次同时考虑样本的全局和局部结构信息,并利用无监督聚类的思想使得样本在低维空间中自动保持良好的聚类特性。最后为了求解GNPCFE的最优投影矩阵,提出了两种有效的交替迭代的优化方法,包括正交性松弛的GNPCFEr算法和基于k均值聚类的GNPCFEk算法,并从理论上证明了这两种算法的收敛性。实验结果表明GNPCFE能够取得比现有的无监督特征选择或特征提取方法取得更好的性能,例如在UMIST,ORL和COIL20数据集上,本章提出的方法相对与其他的无监督特征提取方法分类准确率分别提升了约9.1%,5.1%和10%。
其他文献
近些年来,消费者对使用天然水果或食物来改善健康越来越感兴趣。水果和蔬菜中含有天然的抗氧化剂,对人体的健康非常重要。苹果(Malus×domestica Borkh.)是世界上最受欢迎的水果之一,富含多种营养和生物活性物质,已经在世界各国的健康相关研究中得到了广泛的应用。苹果中的这些植物化学物质在抗氧化、预防炎症、肥胖、高血脂症、癌症、糖尿病、动脉粥样硬化活动和冠心病都有有益的作用。通过饮食预防疾病
肺癌是当前发病率和死亡率最高的恶性肿瘤,具有高转移、易耐药、易复发等特性,严重威胁着人类的健康和生存质量。由于肺癌早期具有隐匿性,约70%的患者在确诊时已进入晚期,肿瘤已发生转移,错过了手术的机会。化疗和放疗等传统疗法是治疗肺癌的主要手段,存在多药耐药现象和严重的毒副作用,治疗效果不佳。近些年来,肺癌的靶向治疗和免疫治疗虽取得了很大的进展,但5年生存率仅为17.4%。因此,开发具有疗效好、毒副作用
精细化和定量化是储层地质学研究的趋势,储层的研究已经从毫-微米的常规尺度扩展到了微-纳米的非常规尺度,然而相关研究主要集中在页岩、致密砂岩和煤储层,湖相致密碳酸盐岩的研究较为缺乏。川中大安寨段是我国重要的湖相致密碳酸盐岩油气产层,近年来面临着产量递减的困境,并且其微观储集空间(BJH和SBET也可分别达到2.50 cm~3/100和6.02m~2/g,以粒间孔、粒内孔和有机质孔为主。孔隙结构方面,
目的 深低温低流量体外循环术是当前小儿心脏外科手术重要的辅助手段。长时程深低温低流量仍会对患儿的诸多脏器造成较为严重的损伤,尤以中枢神经系统损伤为甚。本研究旨在利用深低温下双侧颈内动脉夹闭小鼠模型,探究长时程深低温低流量体外循环术在出生后脑发育关键时间窗口对于大脑中主要神经细胞类型的影响,动态分析脑损伤潜在的细胞和分子机制。方法 在深低温(19℃)下,对2周龄小鼠双侧颈内动脉夹闭,在持续夹闭2.5
本文以中国富硒大省——湖北为研究对象,依托中国地质调查局多目标地球化学调查项目,在充分挖掘海量地球化学数据的基础上,以生态地球化学理论为指导,结合基础地质资料,开展大数据分析、同位素示踪和室-内外栽培对照试验等工作,系统研究了湖北省不同类型富硒土壤的地质地球化学成因及其资源化利用途径,为推动具有湖北特色区域富硒产业的健康发展提供科学依据和理论指导。取得的主要认识和结论以下:(1)综合地质地球化学特
目的:胞内模式识别受体PKR参与了 2型糖尿病等多种炎症相关疾病的发生过程。研究表明:PKR与2型糖尿病机体胰岛素抵抗有密切联系。而其对代谢调控组织胰腺β细胞数量及其相关功能的调节并不清楚。本研究旨在探讨PKR亚分子结构功能—酶活性和底物特异结合,对胰腺β细胞数量改变及其相关功能的调控机制。方法:采用高糖高脂或炎症因子刺激胰腺β细胞,构建胰腺β细胞2型糖尿病模型。采用PKR、PKR突变体(296R
2013年,习近平主席提出了“一带一路”倡议构想,加强与沿线国家的贸易合作是“一带一路”建设的重点内容之一。“一带一路”沿线国家众多,市场巨大,对于中国未来贸易发展具有重要意义。国内已经有许多学者开始关注中国与“一带一路”沿线国家的贸易问题,但已有研究大多采用定性分析法,关注于中国与沿线国家的贸易关系、贸易格局以及贸易发展前景等方面的分析。现有文献中,鲜见从贸易成本的角度分析“一带一路”倡议实施对
基于核心素养的课程改革是当前教育的重点。新时代立德树人背景下科学课程核心素养包含哪些要素还不清楚,评价指标体系还不够完善,学生科学课程核心素养发展的学段特征还有待进一步系统研究,这些都制约着科学课程改革的发展。本研究从多元化和本土化的视角,建构了小学生科学课程核心素养的结构和测评框架,并在测评基础上归纳了小学生科学课程核心素养的学段特征,为科学课程改革提供了理论和实证依据。主要做了四个方面的研究:
随着大陆表壳岩石中超高压指示矿物柯石英的发现,大陆深俯冲成为了研究大陆岩石圈结构、特性、行为的重要窗口之一。大陆俯冲带超高压变质岩中主要岩石类型为长英质片麻岩,其流变学性质决定了大陆深俯冲和折返动力学过程,具有重要科学研究意义。钾长石是长英质片麻岩中的的重要组成矿物,其流变学研究程度相对长英质片麻岩中另外两种主要矿物—石英和斜长石,研究程度很低,迄今为止,中下地壳主要的造岩矿物钾长石还没有流变学的
羌塘盆地是我国最大的中生代海相含油气盆地,也是我国陆域新区最有望取得重大油气突破的地区。但是,盆地演化、构造特征及其对油气保存条件等方面的认识和研究不足,限制了羌塘油气资源的勘探。本论文对尼玛-荣玛走廊带区内岩浆热事件和逆冲推覆构造展开工作,研究羌塘盆地构造演化背景和区内逆冲推覆构造的特征、类型、成因机制等,探讨逆冲推覆构造对油气保存条件的影响,为开展油气资源评价和寻找油气有利区提供参考。此外,对