泛化零样本图像识别中的可分类原型研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:successyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的基于监督学习的图像分类系统由于深度学习技术和常见类别的大规模数据集的快速发展而取得了良好的效果。Image Net数据集上的一些方法在top-5上已达到95%以上,这已经超出人类水平。然而,由于世界上的物种数量庞大,新的物种不断产生且难以获得,所以不可能在一个分类模型中包含所有的类别。因此,现在的挑战是如何使预先训练好的模型能够泛化到新的类别,而不需要收集带有结构化注释的新训练示例。零样本学习(Zero Shot Learning)就是解决这类问题的一种方法,在训练类和测试类不同的情况下,将从训练类中学习到的知识迁移到测试类中。零样本学习凭借独特的学习方式,在图像分类领域有着深远的研究意义和广阔的应用前景,在近年来越来越得到关注。传统的零样本学习研究已经在假设测试图像只来自于不可见类的原设定上取得了非常好的结果。然而,零样本学习只把分类的重点放在不可见类上,即认为分类对象只属于不可见类而不属于可见类,这对于实际场景是不合理的,因为我们不能预先知道即将到来的数据是属于可见类还是不可见类。一种新的具有挑战性的泛化零样本学习(Generalized Zero Shot Learning)将测试中的搜索范围从不可见类扩展到了可见类和不可见的类,并且其已成为本研究领域的新课题。基于上述研究背景,本文提出基于泛化零样本在图像识别中的可分类原型研究,针对现有方法的不足,例如难以解决的领域偏移的问题,本文提出三种方法,来提高泛化零样本的识别性能。本文的主要内容及贡献如下:1.在本文中,我们提出了一种对偶判别性自动编码器网络方法,其中视觉特征和语义类原型使用高维隐空间进行自编码。通过对偶语义视觉自动编码器和判别性特征嵌入策略将特征嵌入到隐空间,这样使隐空间中的语义类原型既能保留原始语义又使其具有区分性,同时利用交叉模态重构使隐空间获得更多的交互信息。2.由于可见类和不可见类之间存在域差距,大多数类别仍然存在领域偏移问题。因此,本文提出了一种基于视觉语义对齐的判别性映射学习的泛化零样本学习方法。我们定义了一个隐空间,其中视觉特征和语义类原型是对齐的,并假设每个原型都是其他原型的线性组合,约束所有三个空间的系数均相同。同时,通过利用线性判别分析策略学习视觉空间到隐空间的投影矩阵来提高隐空间的判别能力。3.本文提出了一种通用的可植入属性校正模块,来解决当属性定义不明确、不可靠、定量表示不正确或存在视觉语义差异时的瓶颈问题。该模块可以有效地将传统的零样本学习适应于泛化零样本学习任务中。与现有基于嵌入的方法而常常导致失去属性原有含义不同,我们的主要目标是充分保留属性的原始含义,并使语义类原型具有互补性和可解释性,以升级现有的零样本学习模型。为此,我们提出了一种迭代随机梯度下降的新型非负约束,以有效地将我们的模块拟合到传统的零样本学习模型中。
其他文献
现实世界中存在许多网络结构的数据集,如社交账户网络、引文网络等,而此类网络数据集又可分为同构网络和异构网络。同构网络即网络中仅有一种节点类型,而异构网络中节点类型可能有两种或两种以上。对此类网络结构数据集进行数据挖掘以及学习分析能发现许多隐藏信息,已成为近来学术界以及工业界的研究热点。然而,网络结构的数据集无法直接输入现有的数据挖掘,机器学习算法,所以对于此类数据集,一个亟待解决的问题即如何表示网
作为人工智能的一个分支,深度学习凭借强大的数据挖掘及建模能力被广泛用于解决数据驱动等问题。深度学习的成功受益于数据量的高速增长,以及数据的准确性。为训练出高精度模型以提高竞争力,越来越多的企业广泛收集用户数据。然而,这些被收集的数据含有用户的敏感信息,如照片、语音等,用户并不希望敏感信息被企业利有。此外,各国在加强建设隐私保护法,这进一步束缚了企业收集、训练数据,造成数据孤岛。为摆脱上述束缚,谷歌
与传统的标准动态视频相比,虽然高动态范围视频提高了人类视觉体验,但目前市场上和大多数消费者使用的依旧是传统的SDR显示器,而HDR视频无法在传统SDR显示器上提供HDR视觉效果。同时实现HDR/SDR视频服务可以简单地通过在服务器端存储两个版本的视频文件,但这需要占用大量的存储资源。另一个替代方法则是设计向下兼容的双层HDR视频编解码系统,提供针对不同设备的弹性播放,即向SDR显示器端传输基本层(
联邦学习是一种以数据隔离为中心思想的分布式架构,在机器学习领域中受到广泛关注。在联邦学习架构下,中央服务器通过接收并聚合用户上传的本地模型参数训练全局模型。然而,尽管原始数据在联邦学习中没有被直接传输,恶意用户仍然可以通过上传设计好的模型破坏系统性能,甚至使其完全无法收敛。另外服务器也可能通过反向分析上传的模型窃取用户数据隐私。本文围绕联邦学习系统中的安全与隐私特性展开研究,并取得如下成果:(1)
智能交通系统的兴起为加快发展环境友好型智能交通生态系统带来了难得的机遇。以V2V(Vehicle to Vehicle)通信为核心技术的互联自动驾驶汽车队列智能控制具有较好的节能潜力。本文以后驱纯电动商用车队列为对象开展节能控制方法设计,创新性地提出了一种带能量管理策略(Energy Management Strategy,EMS)的分布式模型预测控制(Distributed Model Pred
自由活塞发动机是一种新颖的能量转换装置,以其可变压缩比、可变燃料、热效率高等优势,近年来倍受研究人员的关注。目前,自由活塞的往复运动控制问题仍然是制约其发展的一大挑战。本文在课题组多年研究的基础上,以一种对置活塞式自由活塞发动机为研究对象,对自由活塞的往复运动控制展开仿真与试验研究。具体包括以下几个方面的工作:(1)分析了自由活塞发电系统的工作过程。建立了各个子系统的热力学模型和动力学模型。在Ma
随着社会信息化和数字化的发展,数字视频技术在军事作战、安防监控和自动驾驶等领域得到广泛应用。人眼对色彩的变化极为敏感,但低照度环境下采集的视频色彩丢失、质量退化严重,极大的限制了夜间安防、自动驾驶等领域的发展。因此,增强彩色低照度视频,提升视频质量,更有效地获得场景信息是当前研究的重点。本文以FPGA为核心,基于低照度视频增强算法,设计了一款小型化、实时彩色低照度成像系统。主要研究内容如下:为取得
当前,世界各地由相继故障引起的大停电灾难时有发生。因此,全方位地分析和研究相继故障过程对保障电网安全稳定运行具有重要意义。本文基于电网仿真数据,借助网络理论和强化学习方法,对电网相继故障过程及其控制进行了研究。主要研究内容如下:1)针对考虑关键线路的智能电网攻击方法,研究了基于强化学习的顺序攻击方法,并提出了改进的强化学习探索策略。相较于已有的电网攻击方法研究,考虑关键线路的攻击方法研究更符合电网
本文研究了基于4D毫米波雷达与IMU(Inertial Measurement Unit,惯性测量单元)融合的车载SLAM(Simultaneous Localization and Mapping,同步定位和地图构建)技术,分析了基于4D毫米波雷达与组合导航系统的数据预处理算法,研究了基于Cartographer的定位与建图优化算法,具体实现了一种基于4D毫米波雷达与IMU融合的车载SLAM系统
隐蔽目标的探测一直都是军事上重点研究的领域,随着高光谱成像技术的发展,为这一领域提供了新的解决思路。利用高光谱数据高的谱间分辨率,可以更精准的反映目标和背景的光谱特性,从而提取出隐蔽目标。但高光谱数据冗余信息多、数据量大、空间分辨率低,为后续隐蔽目标探测带来了极大的干扰。本文通过研究高光谱降维技术,去除冗余信息,减少数据量。对于高光谱数据空间分辨率低的问题,考虑到多光谱数据具有较高的空间分辨率,但