复杂场景下的行人重识别关键技术研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:getu0217
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术的迅速发展,行人重识别逐渐成为计算机视觉领域热门的研究课题,其作为智能视频监控系统中的重要组成部分,可以帮助从候选集中检索出待查询行人的所有图像,从而减少大量的人力成本,具有巨大的研究意义和应用价值。然而,由于背景杂乱、遮挡、图像质量低和相机视角等复杂的影响因素,给行人重识别带来了严峻的挑战。目前,主流的基于图像的行人重识别方法主要研究如何从捕捉到的监控图像中提取更具有判别性的行人特征,例如采用注意力机制建模图像特征关系、通过行人部件匹配的方法增强局部区域的识别能力、增加额外的监督信号辅助训练、联合高低分辨率图像增强跨分辨率的重识别能力等。但是,这些方法仍在存在全局特征关系建模不完整、局部区域划分过于机械、依赖特定数据集、忽视低质量图像的负面影响等问题。如何从复杂场景下的行人图像中提取有判别性的前景行人特征依然是一个具有挑战性且意义深远的问题。本文以基于图像的行人重识别为研究对象,对注意力机制、全局特征、局部特征在复杂场景下的行人重识别中的应用展开研究,提出并实现了三种行人重识别的算法,主要研究工作和成果如下:(1)本文提出了一种基于非局部多子空间注意力的行人重识别方法。为了学习图像的二阶信息并捕捉图像中多样的全局关系,在多分支的结构上提出了多子空间非局部注意力(Multi-Subspace Non-local Attention,MSNA)机制。MSNA不局限于单一空间,而是在多个空间中将局部信息集成到远程依赖的建模中,从而捕捉到更全面的图像关系信息。从全局的特征关系入手,在复杂场景中提高模型判断前景目标特征的能力,为特征分配不同的权重,得到更突出目标的强化特征图。非局部的多子空间注意力网络大大提高了网络在低层级阶段的特征表示能力,新模型MSNA-Res50和MSNA-MGN在多个数据集上取得了有竞争力的结果。此外,所提出的MSNA灵活且有效,可以以即插即用的方式作为提高关键目标区域注意力的通用方法。(2)本文提出了一种基于局部随机强化损失的行人重识别方法。在非局部多子空间注意力网络的基础上,从进一步强化局部特征的角度展开对行人重识别方法的研究。提出了基于随机条状区域丢弃(Random Dropstripe,RD)模块的强化损失(Reinforced Loss,R-Loss)来充分利用部件内部和跨部件的信息。它避免了固定部件匹配中忽视跨部件信息的问题,并且增强了对局部特征提取的能力,关注了局部特征间的关联信息。RD模块通过设置不同的比例因子调节特征图中丢弃或保留的区域。R-Loss基于RD的比例设置,以不同的区域进行行人身份识别,约束模型关注局部细节特征。R-Loss集成到模型不同层级的时候,从高到低设置RD的比例因子,约束模型提取由粗到细的特征。新模型R-MSNA-Res50和R-MSNA-MGN结合了行人全局和局部信息,在多个数据集上的实验证明了R-Loss可以进一步提升模型的识别准确率。此外,所提出的R-Loss模块提供了一种增强局部信息关注的通用方法,集成到网络框架中,提升模型整体的性能。(3)本文提出了一种基于跨尺度块选择网络的低质量行人重识别方法。在复杂的真实场景监控中,行人重识别的研究还面临着低质量图像的问题,例如低分辨率、模糊和噪声等问题。为了缓解上述问题,提出了单分支结构的跨尺度块选择网络(Cross-Scale Block-Selection Network,CSBSNet)。精心设计基于块的注意力,将相邻像素加入计算,克服退化因素的干扰,挖掘块与块之间的关系。将块选择机制从单尺度扩展到多尺度,探索跨尺度特征之间的块与块的关联,提取更“干净”和判别性的特征。模型不需要利用高低两个质量的图像,减少了对特定数据集的依赖。所提的方法不仅在传统的数据集上取得了具有竞争力的结果,而且在多种低质量图像上验证了其鲁棒性。通过对复杂场景下行人重识别的研究,本文提出了三个有效的方法。从模型层面优化网络结构,增强了网络抗干扰能力,在复杂场景下的行人图像中有效提取目标区域特征。所提的方法均在多个常用数据集上与当前主流行人重识别算法进行比较和分析,验证了本文方法的巨大潜力和优越性,未来可以在更多场景中应用和推广。
其他文献
肌内脂肪(Intramuscular fat,IMF)是一种肉质属性,定义为可食用肌肉中分散的脂肪颗粒的总数量,代表了肉的脂肪水平,广泛认为这一特性对猪肉的烹饪质量(即风味、多汁性)、消费者满意度以及消费相关健康问题有很大影响。过去常通过化学以及光谱等方法来测定IMF含量,但这些方法需屠宰后采样,为了在育种中选择肉的质量特征,开发体内方法是非常重要的。CT是无创断层图像,密度分辨率高,可将细小的点
学位
肝癌的致死率在癌症中位居前列,严重威胁着人体健康。在临床应用中,CT是医生进行肝癌诊断的常用方式之一,从CT影像中对肝脏和肿瘤区域的精准分割,对疾病的诊断和预后治疗具有重要的研究价值。传统分割算法多依赖于先验知识,不利于临床应用中的自动化扩展。近年来,深度卷积神经网络(Deep Convolutional NeuralNetwork,DCNN)被广泛应用在肝肿瘤分割任务上,通过局部感知和参数共享的
学位
在很多经典的深度学习网络模型中,多尺度特征融合结构都发挥着重要作用。多尺度意味着在不同粒度下对信号数据进行观察。当粒度更大更稀疏时,网络能够学到整体的趋势,获得全局性的高层特征;当粒度更小更密集时,网络能够学到更多的细节,获得局部性的底层特征。将不同粒度学习到的特征通过独特的空间通道均衡方法融合在一起,促使网络同时注重纹理和结构,从而保证模型的高效性和鲁棒性。在本研究中,我们将主要聚焦于深度神经网
学位
核磁共振成像(MRI)、计算机断层扫描(CT)等医学成像技术为病痛中的患者带来了福音。就MRI而言,通过在体外成像,便可探测体内病灶部位,在减轻病人痛苦的同时,一些隐蔽的心血管疾病、淋巴结恶性病变等在MR图像中无所遁形。然而,由于MRI受到接收器电路以及人体活动等不可控因素影响,噪声和伪影随即出现,成像质量发生了不可避免的退化。研究者们结合传统方法和深度学习方法对生成高质量医学影像进行了探索:一些
学位
图像融合一直是图像处理领域里的一个重要研究方向,其目的是将不同模态图像中的信息融合在一起,使得融合图像既包含多个模态图像中的显著信息同时降低模态间的重复特征。图像融合在很多计算机视觉任务中都有重要应用,比如多源检测、目标跟踪、监控等。在近几十年里,学者们提出了很多解决图像融合任务的算法。基于多尺度变换的融合方法和基于稀疏/低秩表示的融合方法是传统的图像融合方法中最重要的两种,但是这些方法在学习过完
学位
随着全球经济的高速发展,各类社会活动对能源的需求日益剧增,在精确的负荷预测帮助下,电力能源的生产,调度情况将会有极大的改善,从环境保护的角度上也将节约许多不必要的能源浪费。电力负荷预测是当今电力系统管理中最重要的一项任务之一,然而如今社会用电模式日益丰富,传统的负荷预测模型可能无法应对此类复杂的情况。本文首先简要阐述了负荷预测的相关概念,基于负荷的不稳定特性和周期性分析了电力负荷变化的本质,并列举
学位
据调查显示癌症是威胁人民身体健康的病因之一,治疗费用昂贵且不易治愈,而放射线治疗是治疗癌症的有效手段。放射治疗的成功很大程度上取决于对肿瘤的准确照射和对周围高危器官的保护。为了将规定的剂量输送到靶区,减少健康器官受辐射的影响,高危器官的分割对于放射治疗的正确规划至关重要。在临床实践中,分割由专家手动执行以规划放射治疗,手动分割既耗时又繁琐,结果可能因专家而异。自动分割技术可以提供准确稳健的结果,帮
学位
近年来,物联网设备(Internet of Things,IoT)发展迅速,时间敏感的应用如视频流、智能交通、数据共享和个性化多媒体等服务需求迅速增加。边缘计算应运而生,其核心思想是将一部分请求卸载到网络边缘节点进行处理,而不是将其上传到云服务器处理。但是,相比于拥有强大运算能力的云服务中心,在移动边缘计算架构中,边缘服务器的计算资源和存储资源通常是有限的,且分布比较分散。面对未来大规模增加的接入
学位
多源在线迁移学习利用多个源域的标记数据来增强目标域的分类性能,其中目标域以在线的方式接受数据。通过动态调整源域和目标域的权重,使得各个域能被自适应地利用,所以具有良好的泛化性能和极高的学习效率。然而在许多现实场景中的数据往往是不平衡的,其中的少数类样本被误分类将带来重大的损失。为了有效解决这样的实际问题,本文提出了新的多源在线迁移学习算法,具体的研究工作如下:本文提出了一种可以对目标域样本过采样的
学位
网络中的文本信息愈加丰富多样,但如何从海量非结构文本中提取有价值的信息却无从下手,因此亟需一些方法和工具来完成这项任务。其中一个重要的信息提取方法就是命名实体识别,其主要用于提取例如人名、地名和组织机构名等有特定意义的实体信息。近年来,命名实体识别得到了广泛的研究和发展,但目前基于Transformer编码器的中文命名实体识别方法仍存在以下问题:第一,在字符特征提取时,存在未充分利用字符相关多语义
学位