基于图像超分辨率技术的跨分辨率行人重识别研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:zelda999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为自动视频监控中最重要的技术之一,行人重识别(Re-Identification,Re-ID)技术受到了广泛的关注。当前,大多数行人重识别方法假设所有来自不同摄像机的行人图像具有相同的分辨率。然而,在许多真实场景中,由于摄像机与行人之间距离的变化以及摄像机的部署设置,行人图像的分辨率往往不同。由于信息数量的差异,直接匹配不同分辨率的行人图像会对识别性能产生不利影响。为了解决这个问题,一个潜在的解决方案是将图像超分辨率(Super-Resolution,SR)技术与行人重识别方法相结合。本文主要工作如下:(1)针对快速超分辨率卷积神经网络(Fast Super-Resolution Convolutional Neural Networks,FSRCNN)在训练过程中仅利用了特定尺度图像,忽视了其它尺度图像的信息。本文提出了一个级联快速卷积神经网络用于图像恢复。该方法通过级联3个FSRCNN,每个FSRCNN能够处理一幅特定尺度的图像。从而在网络训练过程中,网络能够挖掘3个不同尺度的图像信息,使得最终恢复的图像达到更好的视觉效果。然后,分析了图像超分辨率网络对行人重识别性能的影响。采用SR+Re-ID的框架,使用了4个经典的超分辨率网络和提出的级联快速卷积神经网络作为超分辨率网络、Res Net50作为特征提取网络在MLR-Market1501行人数据集上进行了实验。实验表明图像SR网络的引入,能够在一定程度上恢复低分辨率图像丢失的信息。(2)为了进一步优化图像的分辨率和行人的匹配,针对上述对超分辨率网络和行人重识别网络集成兼容性的分析,本文提出了一种基于超分辨率生成对抗网络(SuperResolution Generative Adversarial Networks,SR-GAN)的多尺度深度特征表示的行人重识别模型。该模型首先设计了三个级联的SR-GAN来提高具有不同放大因子的行人图像的分辨率,然后在每个SR-GAN之后引入一个特征提取网络来增强图像特征的表示能力。多个跨分辨率行人数据集上的实验表明了提出的模型能有效地降低行人重识别中精度降低的问题。
其他文献
分类是数据挖掘和机器学习领域中最基本、最具代表性的问题,精准且高效的分类是许多科学研究和应用工程的基础。进化计算(Evolutionary Computation,EC)技术由于具有较好的全局寻优能力,已成功地应用于解决许多问题,例如:分类问题,特征选择问题等。其演化出的进化分类模型便是用于求解分类问题的方法之一。近年来,头脑风暴优化算法(Brain Storm Optimization,BSO)
交通流量数据是一种典型的具有非线性特征的数据集,同时收集到的交通流量数据由于受多种因素的影响表现出高度随机性。因此,建立基于多因素交互影响的短时交通流量预测模型具有现实意义。本文基于深度学习的方法和模型,利用卷积神经网络和长短期记忆神经网络建立短时交通流量预测模型。主要研究内容如下:(1)提出了一种带有因果卷积模块的TCN-LSTM模型,该模型在特征提取部分由两个子网组成,一是基于原始交通流量数据
随着视频成像和多媒体技术的进步,视频技术正朝着超高清和立体化的方向发展,为了解决立体视频高效压缩问题,视频编码联合组在高效视频编码(High Efficient Video Coding,HEVC)标准的基础上发布了3D高效视频编码(3D-HEVC)标准。但是新的标准在最大限度的去除数据冗余的同时,对视频的画质也造成了一定的影响。因此,如何有效地消除视频中存在的失真和孔洞,提升视频的质量,是迫切需
随着数据采集设备智能化及自动化的不断发展,数据采集更加方便,数据采集的内容更具多样性,数据维度不断增加,采集频次也在不断增强。当前,气象数据的采集多呈现为以分钟记录。气象部门在气象监测设备的更新与改造方面每年投入大量的资金,其目的并不只是为了记录数据,而是通过收集数据期望能够从中挖掘出某些气象规律,更好地服务于经济社会之需。近年来,随着深度神经网络技术地发展,研究人员在利用时间序列进行预报方面做了
近年来,随着公共安全需求的增加,视频监控技术得到了广泛的应用,产生了海量的视频监控数据,然而从如此大规模的视频数据中搜索犯罪嫌疑人十分困难,因此能够从视频监控中自动搜索寻找行人的算法具有重要的研究价值和意义。基于文本的行人重识别作为解决该问题的有效方法,在视频监控、电话报警、嫌疑人查找等领域具有非常大的应用价值。基于文本的行人重识别需要克服模态异质性,即文本和图像信息之间巨大的差异性。随着卷积神经
近年来,雷电灾害在全世界范围内造成了大量的经济损失和人员伤亡,对人类的各项活动都带来了巨大的威胁。如何有效减少雷电灾害的发生成为研究学者所关心的目标。雷电灾害风险评估和雷电预测研究是全社会提高雷电防御能力的两个重要途径。本文分析了目前雷电灾害风险评估的研究状况以及存在的不足,引入神经网络算法进行改进;对于雷电活动的预测,本文运用ConvLstm网络搭建了预测框架,并提出了一种解决数据稀疏问题的方案
跨社交网络的用户身份匹配的目的是检测来自不同社交网络的用户是否属于同一个人。这些社交网站中的信息在其它领域中通常具有重要意义,如信息扩散、链接预测、跨域推荐、隐私保护和身份验证等。当前,跨社交网络的用户身份匹配算法主要利用个人属性特征、网络结构特征和行为特征进行研究。虽然现有研究取得了一定进展,但是仍然存在一些不足,比如现有研究未能充分挖掘用户间的亲密程度、缺少大量准确可靠的标签用户,未能有效将全
视频压缩感知系统基于压缩感知理论,仅在一次曝光过程中将多帧画面投影至二维压缩测量,进而实现高速成像。为了从二维压缩测量信号中恢复出原始视频信号,经典的重建算法基于视频的稀疏性先验进行迭代优化求解,但存在重建质量低,且耗时过长等问题。深度学习因优异的学习能力而受到广泛关注,也被应用于视频压缩感知重构问题,但现有基于深度方法的重构算法缺乏对于时空特征的有效表达,重建质量仍需提升。为此,本学位论文着重研
近年来,计算机视觉的发展使得图像处理技术被运用于航空、气象、医疗、安防等各个领域。但是图像在采集、传输和存储等过程中容易受到各种噪声干扰,导致图像质量下降,从而直接影响图像后续处理。因此,图像去噪是图像处理中必不可少的环节。目前研究者们针对高斯噪声进行研究,并提出了许多高性能的去噪算法。而混合噪声的噪声分布较复杂。对诸如混合高斯、脉冲噪声的研究还不够深入,相关算法的去噪性能有待提升。目前对于混合噪
时序动作检测任务是当前计算机视觉领域的研究热点之一。该任务可以定义为:以自然采集的视频片段作为输入,自动输出视频中包含动作片段的开始时间点和结束时间点(时序动作提名生成),以及该动作的具体类别(动作识别)。本文分别对时序动作提名生成任务和时序动作检测任务进行了探索和研究。关于时序动作提名生成任务,针对现有方法对动作开始和结束边界点难以准确定位的问题,本文提出了一种基于精确边界预测(Boundary