【摘 要】
:
行人再识别是依据当前监控场景中出现的行人目标,通过计算机视觉技术,对在不同场景监控摄像头中拍摄的行人进行再识别。但在实际应用中,行人的图像或视频并不能被充分捕获到,被查询人样貌的自然语言描述可为行人再识别提供更有用的信息,因此,基于自然语言描述的行人再识别成为了研究热点。基于自然语言描述的行人再识别属于跨模态匹配问题,图像和自然语言描述文本的特征异构明显,为此本文构造了双分支提取特征的网络模型,并
论文部分内容阅读
行人再识别是依据当前监控场景中出现的行人目标,通过计算机视觉技术,对在不同场景监控摄像头中拍摄的行人进行再识别。但在实际应用中,行人的图像或视频并不能被充分捕获到,被查询人样貌的自然语言描述可为行人再识别提供更有用的信息,因此,基于自然语言描述的行人再识别成为了研究热点。基于自然语言描述的行人再识别属于跨模态匹配问题,图像和自然语言描述文本的特征异构明显,为此本文构造了双分支提取特征的网络模型,并提出了截断式注意力机制对自然语言描述文本特征再处理,提高其表征特性。在对两种模态下的特征进行相似性度量时,设计了基于相对熵的堆叠损失函数实现了相似性度量。本文的主要工作内容如下:提出基于自然语言描述的行人再识别的双分支网络框架,分别提取图像和自然语言描述文本的特征。其中,基于Mobile Net网络的分支提取图像特征;自然语言描述文本经过词嵌入预处理后,经过Bi-LSTM网络分支提取文本的时序性特征。为了提高自然语言描述文本特征的表征性,提出了截断式注意力机制对文本特征进行权重再分配,即通过设置阈值对单词的权重进行筛选,突出表征明显的局部特征向量,忽略显著性偏低的局部特征,最后作为自然语言描述文本的特征。提出基于相对熵的堆叠损失函数进行特征相似性度量,既有效的利用了行人身份标签,又解决损失函数训练难和设计难的问题。堆叠损失函数由基于相对熵的跨模态匹配损失函数和基于相对熵的单模态多分类损失函数组合而成。跨模态匹配,通过相对熵来减少图像和文本特征匹配结果的概率分布与实际标签的概率分布之间的差异。单模态多分类,通过相对熵减少图像和文本多分类概率分布之间的差异。本文在基于自然语言描述的行人再识别领域内唯一的CUHK-PEDES数据集上进行实验。实验结果显示:本文算法Top-1准确率为50.19%,Top-5准确率为72.50%,Top-10准确率为80.77%;与目前主流算法进行对比,本文算法在保证网络结构简单灵活的基础上,能够有效的解决基于自然语言描述的行人再识别问题。
其他文献
近年来,我国持续推动绿色发展,不断促进经济发展与生态文明建设的统一,提出了诸多重要部署以打好生态环境治理攻坚战,这要求我国充分发挥制度优势,在构建污染防治行政机制的同时,也要重视生态产品价值实现机制的创新构建,促进生态补偿制度的多元化与市场化,从而让生态产品投资行为获得足够回报,深刻践行“两山”理念。本文将结合《生态产品价值实现:路径、机制与模式》一书,简述生态产品价值实现的理论基础,同时探
基于捷联惯导原理的MEMS惯性导航定位技术日益受到重视,由于MEMS陀螺仪精度的限制和捷联惯导的积分解算方式,使得载体姿态估计的误差不断累积,难以实现长时间的精准定位。本文针对室内惯性定位的应用场景,研究采用单目视觉校正惯性姿态估计误差的方法。论文主要工作如下:(1)视觉绝对姿态辅助惯性定姿算法。通过视觉系统获取室内特征参照物的图像,结合已知的参照物姿态,利用透视投影原理,获得当前时刻基于视觉信息
近年来,随着我国经济建设和社会生产力的快速发展,空气污染已经成为大众和政府特别关注的重要话题。利用日趋成熟的数据挖掘手段,通过关联性理论方法,从空气质量数据中挖掘有价值的隐藏信息,通过分析,得到隐含在海量数据中的关联规则,对空气环境治理决策的制定具有重要意义。基于频繁模式增长(FP-growth)算法思想提出的关联规则算法,存在建树过程复杂,计算支持度繁琐的问题,导致挖掘效率较低。为此,论文提出了
皇冠梨在出口海外市场的过程中,会产生内部腐败变质而外观无明显变化的现象,从而导致商品会被全部拒收,造成巨大的经济损失。另外,在其品质检测过程中一直使用有损检测技术的感官评定方法,该方法一方面检测样本较少,覆盖面较小;另一方面其结果可靠性差、可重复性差。因此,本文特提出一种新型的无损检测技术,分别建立基于电子鼻嗅觉特征和视觉图像特征的皇冠梨分类模型,并将基于电子鼻技术和机器视觉技术的融合技术应用于皇
因果关系反映了事情之间先后相继、由因及果的发展关系。专利文本中的因果关系体现了专利的技术核心,有助于精准挖掘专利信息,也有助于专利知识图谱的构建。虽然因果关系抽取是自然语言处理领域一个经典的研究方向,但针对专利语料方面的研究较少。目前用于因果关系抽取的方法中,存在隐式因果关系抽取困难,边界识别模糊的问题。针对这些问题深入研究,主要工作包括:(1)构建专利因果指示词表。针对隐式因果关系抽取困难问题,
空间分析一直以来都是研究的热点课题,课题研究人员针对空间分析研究过程中遇到的各种问题提出了大量的解决方法。空间数据通常包含位置信息以及感兴趣的属性信息,空间数据分析是对空间数据提取或创建一组关于地理特征的新信息以对地理区域中的数据进行常规检查、评估、分析或建模的过程。对空间数据建立空间分析模型,有助于增强空间数据的估计和预测能力,提高数据的解释性和理解性。本文研究了栅格数据回归模型、地理统计数据回
During Photovoltaic solar cells manufacturing,visual defects inspection is carried out to guarantee the product quality and life span of solar cells.Solar cell surface defects can be classified into c
视频显著物体检测旨在利用计算机快速有效地从视频中获取感兴趣区域,有助于后续的目标提取或者定位等处理。视频由于摄像机抖动、光线变化、镜头突变切换和摄像机运动等因素,容易产生物体形变,模糊和无意义背景干扰等问题,这使得显著物体的检测任务面临着巨大的挑战。视频显著物体检测分为基于手工特征方法和基于深度学习的方法。基于手工特征方法采用无监督机制,准确率较基于深度学习的方法低。基于深度学习的方法大多是有监督
基于相位计算的光学三维测量技术具有精度高、可实现、非接触、系统结构简单、灵活性好等优点,一直是国内外研究的热门之一。目前三维测量技术己经广泛应用于工业检测、逆向工程、测绘导航、医学工程等领域。传统的三维测量系统由一个摄像机以及一个投影仪组成,容易受到视场范围限制造成视觉盲区,会存在十分明显的数据缺失现象。为了解决复杂形貌测量问题以及扩大系统视场范围,本文采用双相机和投影仪组成的多节点系统进行测量。
基于机器视觉的带钢表面缺陷检测系统对提高产品质量、提升智能化制造水平具有重要作用。但是,在实际生产中很难获得种类齐全、分布均衡的缺陷样本库,基于机器学习方法依赖于大量有标签的数据而难以发挥它的优势。在异常检测领域,一分类方法可以通过拟合大量正常类数据的分布来完成正负样本划分,而生成对抗网络(Generative Adversarial Networks,GAN)能够对复杂和高维分布的数据建立模型。