基于结构和判别语义嵌入的图像表征学习研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:heinblue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像识别是计算机视觉领域的研究热点之一。如何从大规模的高维度视觉数据中获取有效的视觉表征,并且实现视觉信息的高精度、鲁棒、快速识别,已成为图像识别研究领域所面临的、迫切需要解决的问题。图像识别系统的性能依赖于数据表征的选择。具有强判别性的数据表征可以更好地揭示隐藏在观测数据中根本性的有用信息,进而能够明显提升图像识别系统的性能表现。本论文以稀疏表示和低秩表示学习理论为基础,旨在提取对分类或预测有意义的判别性信息来架起低阶高维观测数据和高阶语义知识之间的桥梁,借此分析隐含在数据间的内在规律,提升图像识别模型的鲁棒性和高效性。值得注意的是,强判别性数据表征学习模型应具备以下三个特点:(i)提取较为简洁显著的判别不变性特征,使用简单的分类器获得较高的识别精度;(ii)消除各种噪声等干扰成分,实现可适用于多种任务的鲁棒图像识别;(iii)有效降低视觉表征空间的维度,提升图像识别算法的效率。针对这些特点,本论文提出了一些新的鲁棒图像数据表征学习模型,这些方法在多个图像识别任务上实现了速度和精度的双重提升。具体来讲,本文的主要研究内容介绍如下。  面向具有几何对称性的图像预处理和目标识别问题,提出了一种基于结构对称性的鲁棒图像表征学习模型。该模型根据图像的几何结构能够自动产生近似结构对称性的数据表征,并以人脸识别为应用实例探索鲁棒的结构对称性数据表征学习方法,使其适用于几何对称性的目标图像预处理以及基于稀疏表示分类的虚拟字典学习。该模型充分利用人脸结构的轴对称特点,基于梯度下降法来迭代更新左右半边人脸图像,进而产生具有近似轴对称结构的虚拟人脸图像。该方法有以下优势:1)作为一种图像预处理方法,它能够有效地减弱人脸图像中由于多种光照变化所引起的噪声扰动,并增加人脸图像的视觉效果;2)能够自动生成近似轴对称的虚拟人脸图像,克服人脸图像中由于光照和视角变化引起的类内差异大的问题,进而有效解决基于稀疏表示的图像识别算法的缺陷。作为一个无监督的数据表征学习方法,在多个人脸图像数据集上,分别针对人脸图像预处理和虚拟字典学习两个任务做了大量的实验验证。  针对传统稀疏表征学习方法存在的不足,提出了一种基于块对角结构约束的判别低秩表征学习模型。该模型在低秩表征学习的框架下,通过提取判别的语义信息来同时减少非块对角元素的噪声表示和强调块对角元素的有效表征,进而增强数据表征的判别性。通过最小化非块对角元素来剔除负面数据表示,并且将非块对角中的有益表示转移到块对角元素中,从而有效地克制了类别间数据表征的表示噪声,同时提升了不同类别间数据表示的不相干性。构建了一种子空间学习模型来增强训练样本的自表示能力,使所学到的结构化块对角数据表示更具判别性。此外,利用半监督学习模式消除了训练和测试样本间表示学习的鸿沟,保证了训练和测试图像表示间的一致性。为了应对大规模图像识别扩展问题,提出了一种能够有效地处理新样本预测检验的方法。  针对基于传统回归模型鲁棒性差的问题,提出了一种基于弹性网正则化约束的回归表征学习框架,进而提出了一种判别性回归表征学习模型。该模型将简洁的投影矩阵、判别的回归目标和鲁棒的容错能力这三种重要特性融为一体,使所得到的判别性回归表征能够解决多种图像识别问题。该模型将奇异值弹性网正则化约束和构建独特的回归目标空间统一到同一个判别线性回归分析框架下,并且详尽地揭示和分析了奇异值弹性网正则化约束的本质属性。同时,为有效扩大不同类别间的距离,该判别性模型将ε-牵引技术嵌入到弹性网正则化回归表征学习框架内,使学到的投影目标更具可分性且更加鲁棒。为降低优化方法的计算复杂度,提出了一种能够高效地近似求解低秩最小化约束问题的优化方法。  针对基于图优化的表征学习模型灵活性低的缺点,提出了一种基于自适应图约束的结构化视觉表征学习模型。该模型同时考虑了灵活的自学习边缘目标分析,判别隐空间构建和基于概率的自适应几何结构学习三种学习因素,使得最终得到的数据表征是带有近似最优边缘的强判别性特征。该方法直接从数据本身学习投影目标,通过构造回归目标的判别式来自适应地得到最优的数据边缘。为了保留数据中具有强辨识能力的数据结构,利用基于概率的自适应几何结构来保留数据的局部相似性,并且捕获隐藏在数据底层的判别性结构体,进而反过来引导边缘回归目标的构建。此外,该方法将回归空间的预测建立在一个鉴别的隐空间中,然后通过隐空间学习来寻找隐含数据模式的相互关系。所提出的方法在多个公开数据集上均能获得更高的识别性能,同时通过对比计算时间验证了所提出的算法的高效性。  综上所述,为提高图像识别问题的识别精度和计算效率,提出了一系列基于结构和鲁棒语义判别式的图像表征学习模型,并成功应用于多种应用的鲁棒图像识别。在大量公开数据集上做实验来验证它们的有效性和高效性,结果表明增强数据表征的判别性能够有效提升图像识别算法的鲁棒性和泛化能力。
其他文献
随着Internet技术的迅速崛起和在全球范围内应用的飞速发展,信息共享已经成为一种必然的要求,地理信息也不例外。集成分布式的、异构的信息一直是数据库领域的一个活跃的研究方
回转窑是氧化铝生产的重要设备,回转窑烧成带温度是保证熟料质量的关键因素,设计具有良好拟合效果的烧成带温度检测方法对提高氧化铝生产效率有重要的意义。 本文以中国铝业
随着计算机网络的不断飞速发展,网络信息量也随之急剧增加,从而造成了网络负载繁重、信息交互速度延缓、通信质量变差等各种问题的出现,这就迫切需要设计一个高效、稳定、灵
随着数字技术和因特网的发展,各种形式的多媒体数字作品(图像、视频、音频)纷纷在网络上传输或发表。数字作品的便利性和不安全性是并存的,它可以低成本、高速度地被复制和传播
软件开发是一种艺术、工艺、科学和工程。人们在设想、确定以及创建软件时,身边的环境不断在变更。敏捷是为了在动荡的业务环境中获益而创造变革和响应变革的能力。本论文主要
自第一个使用鸟枪法成功地完成流感嗜血杆菌完整的基因组测序以来,基因组被完全测序的物种数量每年都在飞速增长。当两个非常相近物种的完整基因组可以获得的时候,首要的问题
本文首先从IPv4的地址枯竭、路由选择效率不高、缺乏QoS保证等局限性以及IPv6提供QoS支持的技术优势,来分析IPv6 QoS机制。在此基础上详细分析了当前使用的实时传输与控制协
随着计算机技术的快速发展,在人们的工作生活中,专家系统得到了越来越广泛的应用。通过使用专家系统,可以节约大量的人力资源,可以加快信息流通的速度,在许多领域里,专家系统都得到
原有的交警支队电子警察处罚系统主要由支队的交通处、宣传处、科研处等部门使用,而各区队不具有数据采集、违法认定、违法处罚、查询、统计等功能,同时历经2004年5月新交通法
纹理是在计算机图形学中一种普遍存在的视觉现象。纹理通常用来描述自然界中具有重复性的现象,如机房中的噪声,物体移动,物体表面细节特征以及人类的活动等等。计算机图形学