【摘 要】
:
传统的图像分类任务在很大程度上取决于大规模的数据集,该数据集可为所有类别提供经过标记的样本。但是,在现实世界中,图像的类别遵循长尾分布,其中大多数类别很少出现,因此很难为这些类别收集大量标记的样本。另一个挑战是新定义类别的爆炸式增长,为这些新类别找到足够多的范例是非常困难的。近年来,为了解决这些类别的分类问题,零样本学习得到了广泛的研究。人类可以通过现有的知识动态地创建新的类,而不需要视觉数据。例
论文部分内容阅读
传统的图像分类任务在很大程度上取决于大规模的数据集,该数据集可为所有类别提供经过标记的样本。但是,在现实世界中,图像的类别遵循长尾分布,其中大多数类别很少出现,因此很难为这些类别收集大量标记的样本。另一个挑战是新定义类别的爆炸式增长,为这些新类别找到足够多的范例是非常困难的。近年来,为了解决这些类别的分类问题,零样本学习得到了广泛的研究。人类可以通过现有的知识动态地创建新的类,而不需要视觉数据。例如,从未见过斑马的人可以利用斑马的特征,如老虎的条纹、大熊猫的黑白色和马的形状来识别斑马。受这种人类能力的启发,零样本学习旨在从一组收集的数据中学习模型,这些数据通常包括视觉和语义信息。零样本学习利用语义信息作为中间桥梁,将模型的识别能力推广到新的类中。以往的零样本学习方法大多将该问题视为一个视觉语义嵌入问题。该方法学习将视觉特征和语义特征映射到公共嵌入空间的映射。通过在嵌入空间中搜索与所有未知类的语义特征最相似的类来推断未知类实例的标签。传统的零样本学习方法都只能使用已知类的数据来训练模型。这将不可避免地导致领域偏移问题,即在测试时,模型偏向于将样本预测为已知类。一个可行的解决方案是利用语义信息来合成未知类的视觉信息。近年来,一些方法开始采用生成对抗网络来解决这一问题。这些方法使用随机噪声和语义描述中为未知类生成视觉样本。由于训练后的网络可以生成未知类的样本,零样本学习问题自然而然地转化为传统的有监督学习问题。然而,上述基于生成对抗网络的方法的无约束训练过程并不能保证生成样本的质量。基于生成对抗网络地零样本学习方法面临以下两个困境:1)如何保证生成的样本足够多样和真实?2)如何解决零样本识别阶段的领域偏移问题?为了保证模型生成的样本足够多样和真实,本文提出了一种基于语义信息重组的特征生成网络。生成式的零样本学习模型是在已知类别上训练的,很难泛化到已知类别上,具体来说,在面对输入是未知类的语义描述时,模型很难从训练样本中找到相似的范例,从而导致生成的特征无意义。人类有很强的能力借助类别的文字描述,通过组合已知类别信息想象出未知类别的,例如“斑马是身上具有黑白条纹的马”,通过组合马的外表,熊猫的条纹,人类可以想象出从未见过的斑马外表,而且和实际的斑马形象很可能相差无几。本文提出的模型受人类的想象力的启发,不引入任何额外的标签和数据,通过组合已知类的语义描述作为虚构的未知类,并为虚构的未知类生成对应的视觉样本。同时本文研究一种参数化的熵的测量方法,可以方便地学习如何利用虚构的未知类语义描述生成对应的视觉特征。在五个流行数据集上的大量实验表明,本文方法可以较好的解决上述问题,取得良好的结果。针对零样本识别阶段的领域偏移问题,本文提出了一种基于生成对抗网络的相似度保持的特征生成网络。具体来说,我们训练了一个条件Wasserstein-GAN,它将类别的语义描述作为输入,输出为这个类的视觉特征。此外,同一类之间的视觉特征具有很高的相似性,但是同一类中的合成特征和原始特征之间的相似性可能很低,这导致用合成特征训练的分类器对原始样本进行分类时性能很差。为了避免这个问题,我们提出了一种相似度保持的损失来正则化生成网络,这有助于最小化合成样本和原始样本之间的距离,保证合成样本的分布更加接近真实分布。此外,我们在测试阶段使用了一种集成最近邻分类器和线性softmax分类器的方法。具体地说,我们首先使用最近邻法来提取与所生成特征高度相似的原始特征,然后将所选择的原始特征与所生成的特征相结合,训练出最终的softmax分类器。在五个流行的数据集上的实验以及和最新方法的对比表明我们的方法表现优越。
其他文献
随着人工智能的蓬勃发展,深度神经网络在图像分类,自动驾驶,场景监控,医疗健康等领域都得到了广泛的应用。在深度神经网络取得巨大成功的同时,其安全性问题也越来越受人关注,当前大量研究表明神经网络易受对抗样本攻击,以图像识别为例,通过在原始图像上添加一些人眼不可识别的微小扰动就能让模型无法正确运作。在人工智能越来越频繁地运用在需要高安全性应用的时代,对抗样本的存在无疑会成为人工智能发展的一大阻碍,因此研
近十余年来,以深度神经网络为主的机器学习技术取得了长足的进步,这得益于高性能计算软硬件和实际应用的不断发展。现如今已有大量组织和企业提供基于机器学习系统向大众提供服务,例如面部、语音识别、照片优化等等。深度神经网络对算力的需求也不同以往,因此对分布式神经网络系统的需求也逐渐增加。另一方面,在边缘计算应用的不断深入,云端、边缘和终端的分层网络日渐成熟,这带来了更丰富的数据来源、计算设备、应用需求和隐
无人驾驶系统是一个非常庞大,复杂的各种高级模块组成的综合性系统,在满足基本驾驶功能的同时,更重要的是作为智能系统,需要和人类进行交互,分析人类的驾驶意图,将人类意图结合到驾驶策略中。同时,为了能够更加安全的确保驾驶过程的安全以及驾驶意图的正确执行,智能驾驶系统需要能够感知并分析驾驶员/乘客的状态,从而确保命令的正确下达与驾驶过程的相对安全,因此本文从两方面出发建立基于深度学习的驾驶决策分析系统,一
近年来,深度学习在许多领域得到了广泛的应用,也有许多针对多任务的深度模型。多任务学习在建模的过程中,既需要考虑任务之间的差别,避免负向的增长,又需要考虑到任务之间的共同之处。多任务学习的优势也正在于此。在现实世界中的有些任务间存在千丝万缕的联系,分解成多个子任务去独立求解是不正确的。而在实际的任务中,通过更多任务的辅助或者对照,可以帮助关注到最重要的特征,提升泛化性,提高性能。但基于深度学习的多任
随着人工智能技术不断发展,当今社会,语音不仅仅是人类之间通信交流的手段,也成为人机交互的重要桥梁。近年来,语音识别技术发展飞速,开始逐渐应用到各个领域。深度学习的加入,使得语音识别的准确率有了质的飞跃,但是伴随而来的是网络模型越来越大,难以在嵌入式设备上移植和使用。而且语音数据存在一定的隐私性,存在收集困难的问题。并且在实际的语音场景中,总是存在各种噪音,包括但不限于环境噪声、设备噪声、发动机噪声
近年来,随着深度学习和计算机技术的快速发展,图像分类技术已逐渐趋于成熟,其应用在日常生活中的各个领域也十分常见。然而,细粒度图像分类作为图像分类的重要的一个分支,相较而言更具有挑战性,还需要进一步发展。普通图像分类一般是区分不同的大类,不同类型图像之间的差异较大;而细粒度图像分类需要在同一个大的类型下区分不同的子类型。因此,细粒度图像不同子类之间的差异很小,具有类间方差较小而类内方差较大的特性。其
人体检测是当前机器学习领域研究的热点,该技术在虚拟现实、自动驾驶等领域有非常重要的意义。随着深度学习的快速发展,人体检测技术已经取得了不错的进展。但当前人体检测算法在复杂场景下仍然面临目标多尺寸、遮挡等问题,检测精度和速度往往顾此失彼,使得该技术在现实应用时受到一定约束。此外,智能安防、人机交互等领域迫切需要对人体提取更高级的语义信息,即人体行为识别。人体行为与人体姿态联系紧密,尽管基于人体姿态的
近年来,图像超分辨率重建算法的研究取得了重大进展。一般情况下,和较低分辨率图像相比,高分辨率图像可以展示更充分的纹路、更明显的边沿架构,使人类从中获取到更多的有助于图像理解的信息。所以高分辨率的图像更有利于后续对于图像进行分解、处理和应用,同时也可以提高人类的视觉享受。图像超分辨率主要是通过低分辨率图像恢复图像细节,生成对应的高分辨率图像。通常来说,网络越深重建的图像效果越好。但是不计后果地增加网
随着现代科技的革新与发展,海量的互联网用户数据在网络中产生,然而集中式地将数据收集到数据中心的传统方法具有很高的风险与成本,在机器学习中保护隐私的迫切需求促使了联邦学习技术的诞生。而边缘网络的发展让网络服务得以从云端下沉到边缘,硬件设备能力的提升也促进了边缘计算的普及,这使得联邦学习的分布式架构能够灵活地应用于网络中。然而,尽管这项技术能够协调大量的用户在其设备上完成训练任务。但联邦学习要求服务器
深入理解图像的语义信息是计算视觉领域发展的关键,然而在视觉任务中,高级语义信息的获得并不容易,这导致视觉场景图的生成成为一项极具挑战性的任务。视觉场景图生成能帮助本文获得更高阶的语义信息,它作为桥梁连接了物体检测和场景理解,在物体检测的基础上,对物体之间的关系进行建模识别,并使用“主语-谓词-宾语”这样的三元组结构表征物体间的有效关系,最终通过连接这些三元组构成一幅有向的视觉场景图。尽管以往的工作