基于特征匹配和多样性迁移的少样本图像识别方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:gulingling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习目前在大量任务中取得了巨大的成功,这些任务具有大量的用于图像识别、机器翻译和语音合成的标记数据。当标注成本太高或者时间不允许的时候,标注的数据并不是可以大量获得的。相比之下,人类可以在短时间内通过仅仅几个例子就学习到新的概念。少样本学习就是尝试通过训练一个模型来解决此问题,该模型希望可以仅仅基于少量有标签的支持集对一个未标注的样本进行分类。
  本文从特征匹配和多样性迁移两个角度来研究少样本学习任务。论文的主要贡献包括:
  当只有少量带有标注的图像可用于学习一个类别的识别模型时,测试/查询和训练/支持图像中的待识别对象可能在大小、位置、形态等方面有较大差异。本文提出了一种级联特征匹配网络(Cascaded Feature Matching Network, CFMN)的方法来解决此问题。本文在元学习器训练过程中,通过特征匹配模块将更多的注意力集中在待比较图像之间具有高相关性的特征上,从而学习更细粒度和自适应的距离度量,特征匹配块可以将相关特征对齐在一起,且自然地忽略那些非辨识性特征。通过在少样本识别网络的不同层中插入这个特征匹配块,可以将待比较图像之间的多尺度信息融合到最终的匹配特征中,从而进一步提高识别性能。本文在两个标准数据集MiniImageNet和Omniglot上进行的实验证实了该方法的有效性。此外,本文首先提出一个新的COCO数据集的分割,用于研究多标签少样本识别任务,实验进一步证明了特征匹配网络在处理复杂图像任务中进行少样本学习时可以聚焦在关键特征并取得更高的识别精度。
  少样本学习的主要困难之一在于缺乏足够的训练样本的类内多样性。为了缓解这个问题,本文提出了一个新颖的生成框架,即多样性迁移网络(Diversity Transfer Network, DTN),该框架学习从已知类别转移潜在的多样性信息并将其与支持特征进行融合,以生成在特征空间中属于新类别的各种样本。并通过直接最小化单级网络中元分类器损失来解决样本生成(即多样性转移)的学习问题,而不是像之前的工作一样,去单独地训练生成器。此外,本文通过辅助任务,可以稳定并加快DTN的元训练过程。本文对三个数据集(即MiniImageNet,CIFAR100和CUB)进行了广泛的实验和消融研究。结果表明,DTN可以单阶段训练且具有更快的收敛速度,并且模型结构简单,识别精度更高。
  本文所提出的图像识别方案是在少样本情况下的通用方案。主要的实际应用场景有:样本难以采集、样本难以标注、计算资源不足和高要求的迭代速度等等。本文的研究试图从不同的角度来解决少样本学习的挑战。在公共基准上进行的实验表明,少样本学习的任务可以从本文提出的理论、模型和算法中受益。
其他文献
2009年巴塞罗那通讯展上索尼爱立信展出了一款代号为“Idou”的手机,引起了业内不小的震动,不仅仅是因为它是首款1200万像素的手机,而且在硬件配置上十分强大。不过它的正式发布却已经过去将近一年时间,第一款上市得1200万像素手机的头衔也被三星抢去,真可谓是历经波折,现在名字改成Satio的这款手机终于和我们见面了。    从“巧克力”到“冰淇淋”再到今天的“棒棒糖”,LG这样以甜品命名的系列手
期刊
从传出戴尔即将推出自有品牌手机到正式上市,也不过短短几个月时间而已,这其中不难看出PC厂家在其他领域扩张的速度。与其它PC厂家进入手机行业不同,戴尔并没有专门为手机成立独立部门,而是将其纳入按照屏幕尺寸来划分产品的系统之内,同时与中国移动深度合作也让初试手机市场的戴尔减轻了不少销售负担。    颠覆传统的设计    之所以称其为最小的戴尔,是因为前面所提到戴尔把手机也纳入其PC范围内进行管理销售,
期刊
护照是一个国家或地区的政府发放给本国家或地区的公民通用的身份证件,护照查验是指在护照持有人在出入境以及一些通关应用场景下对其进行个人信息核查从而来确定其合法身份。随着全球化的发展,使用护照进行自动身份验证的场景逐渐增多,应用前景较为广泛,同时也面临着基于护照的人脸验证方法识别精度不高以及欺骗人脸攻击的安全风险。
  首先,针对护照自动查验系统在实际应用中容易受到照片和视频等欺骗人脸攻击的问题,本文提出了一种基于深度图的人脸活体检测算法,将3D摄像头采集的人脸点云数据转换成人脸深度图,通过深度网络模型
2009年巴塞罗那通讯展上索尼爱立信展出了一款代号为“Idou”的手机。引起了业内不小的震动,不仅仅是因为它是首款1200万像素的手机,而且在硬件配置上十分强大。不过它的正式发布却已经过去将近一年时间,第一款上市得1200万像素手机的头衔也被三星抢去,真可谓是历经波折,现在名字改成Satio的这款手机终于和我们见面了。    设计:更像数码相机?    熟悉SONY Cyber-shot系列数码相
期刊
近年来,科学技术的高速发展,在给人们的社会生活带来极大便利的同时,也提高了对个人身份认证安全性上的需求。目前,基于证件或者密码的身份认证技术已然无法完全满足人们的需要,而基于生物特征的身份认证技术以其安全可靠的优势,越来越受到社会和研究者们的关注。语音是人们日常生活中交流沟通最直接、最便捷的方式,基于语音的身份识别技术也因此成为了研究的热点,这就是声纹识别技术。
  最近,深度学习技术在声纹识别领域取得的一系列的突破,尤其是基于余量的损失函数的提出,使声纹识别系统的性能有了很大的提升。然而,目前的声
多模态情感分析研究如何让计算机自动地监测出多媒体数据的情绪倾向、程度、类别。目前的多模态情感分析大多基于视频、语音和文本三种模态,是人工智能研究领域的一个重要方向,在日常的诸多领域中都有着广泛应用,例如,市场调查、智能人机交互和客服系统。现实场景中的多模态数据在时间序列上并不对应,难以进行有效的多模态融合。现有的多模态情感分析方法大多只适用于多模态信息已经对齐的数据,但无疑额外增加了数据处理成本。同时,现有的方法大多采用三个模态间两两融合的方式,忽略了单模态内部重要信息和三个模态的内在的相关性,因此并未很
漂亮的机身设计    虽然有很多人非常喜欢E-P1那种白色的机身,但是个人感觉它还是缺乏精致,个头有点大,重量也不是很令人满意。相比之下,松下推出的这款GF1却是吸取了上代产品的教训,这次的改进非常不错。虽然与奥林巴斯的E-P系列同属走复古风格,但是两款产品在外型上的设计还是挺大的。E-P1、E-P2看上去更加“古老”些,GF1则具有德国产品的那种棱角分明的感觉。  GF1在机身前面板提供了一个很
期刊
酷派敞篷新风尚  梅赛德斯 奔驰E-Class Convertible敞篷版    奔驰即将上市新E级敞篷版——2011奔驰E—class convertible,这部新车将在1月的美国底特律国际车展正式亮相。现行版本的梅赛德斯·奔驰CLK跑车自开始销售以来取得相当的成功,但是奔驰公司似乎有意图想要停止CLK跑车的销售,转而采用即将面世的奔驰E—class酷派和敞篷版来取而代之。新款E—class
期刊
结构健康监测(SHM)系统通过部署大量振动传感器,对工程结构动态响应特征(包括固有谐振频率和振动形态等)进行感知,可及时发现结构损伤,成为大型土木工程安全运作的保证。但为了提取结构特征,每个传感器的数据量可能达到数千甚至数万字节。对于能耗受限的无线感知网络而言,无疑将会付出难以承受的传输代价。由此产生一个现实需求:如何在保证结构动态响应特征精度下,大幅降低SHM系统网络中的数据传输开销呢?为解决这一需求,本文提出将压缩感知及其扩展矩阵补全理论应用到系统结构特征计算中。
  压缩感知是一种新兴起的采样
火灾是自然界中经常发生的自然灾害,近年来发生的多次特大火灾给人们一次又一次深刻的教训。随着现代经济的发展,城市规模的扩大,建筑物高度和复杂程度越来越高,建筑的火灾危险系数也随之提高,传统的火灾自动控制系统和消防设施的弊端也愈加明显。近年来科学技术的发展和国家颁布的政策,推动了传统消防向智慧消防的发展,本文即在消防大数据到来的时代背景下,完成了基于大数据驱动的消防远程监控软件系统。
  本文设计实现了一个基于大数据驱动的消防远程监控系统,可以用来监测接入物联网中的各种消防设备的运行状态。系统采用了基于