【摘 要】
:
近年来,随着公共安全需求的增加,视频监控技术得到了广泛的应用,产生了海量的视频监控数据,然而从如此大规模的视频数据中搜索犯罪嫌疑人十分困难,因此能够从视频监控中自动搜索寻找行人的算法具有重要的研究价值和意义。基于文本的行人重识别作为解决该问题的有效方法,在视频监控、电话报警、嫌疑人查找等领域具有非常大的应用价值。基于文本的行人重识别需要克服模态异质性,即文本和图像信息之间巨大的差异性。随着卷积神经
论文部分内容阅读
近年来,随着公共安全需求的增加,视频监控技术得到了广泛的应用,产生了海量的视频监控数据,然而从如此大规模的视频数据中搜索犯罪嫌疑人十分困难,因此能够从视频监控中自动搜索寻找行人的算法具有重要的研究价值和意义。基于文本的行人重识别作为解决该问题的有效方法,在视频监控、电话报警、嫌疑人查找等领域具有非常大的应用价值。基于文本的行人重识别需要克服模态异质性,即文本和图像信息之间巨大的差异性。随着卷积神经网络的不断成熟,这个方向得到了快速发展。本课题以卷积神经网络为核心展开以下两项研究内容,具体研究内容如下:(1)基于聚合压缩激励转换的密集连接内部稀疏卷积神经网络针对密集连接卷积神经网络中存在的问题,本文构建了一种高效的轻量级卷积神经网络,基于聚合压缩激励转换的密集连接内部稀疏卷积神经网络(Densely connected and Inter-Sparse convolutional Networks with aggregated Squeeze-and-Excitation transformations,Denis Net-SE)。该网络同时采用密集连接和分组卷积结构,加强了特征重用和转换的基数,同时减少了模型的规模。通过进一步引入压缩激励(SE)和残差压缩激励(SERE)模块,构建通道级别的注意力机制进行特征选择,提高网络的性能。3个图像分类的基准数据集(CIFAR-10,CIFAR-100,Image Net)上的大量实验表明了该轻量级网络的良好性能。(2)基于最大门控模块的双通道卷积神经网络为了解决基于文本的行人重识别中的模态异质性问题,本文构建了一种基于最大门控模块的双通道卷积神经网络(Dual-path CNN with Max Gated block,DCMG)。该网络结构基于两个深度残差卷积神经网络,结合跨模态投影匹配损失和跨模态投影分类损失进行联合训练优化,将两种模态同时编码到一个联合特征空间中。将预训练的语言模型BERT和残差卷积神经网络相结合,获取更具判别性的词嵌入。最大池化层(Global Max Pooling,GMP)使得文本和视觉特征更加关注于局部显著区域。进一步提出最大门控模块,产生注意力图抑制最大池化特征中的噪声。最后,在基准数据集(CUHK-PEDES)上进行了大量的实验,结果优于最先进的方法。在另外2个图文匹配的基准数据集(Flickr30K,Oxford-102 Flowers)上也验证了我们的方法,并获得了具有竞争力的性能。
其他文献
常规无线探空仪通常搭载高精度温度、湿度传感器、气压计等传感器,对大气温度、湿度、压力等因素进行测量。为了克服探空仪出云、入云后,水分子以冰晶或水滴的形式覆盖在湿度传感器表面从而影响湿度测量的精度问题,本文设计了一种双加热湿度传感器;同时,为了研制高精度、低成本的总辐射传感器,本文提出了一种带有铝制防辐射罩的热电型的总辐射传感器设计。通过两种传感器对高空温度、湿度、辐射强度的测量,旨在对常规探空仪上
短期降雨预测一直是气象预测中十分重要的研究课题,高效、准确的降雨预报为人类活动、国家安全提供有效的科学依据。近年来,深度学习在气象预测方面的研究取得的成果显著,很多深度学习的短期降雨预测模型已经超过大多数传统的降雨预测模型,但是深度学习模型本身还有很多值得改进的地方。目前很多气象中心获得的气象数据大多来自于多个观测站点,这些多站点数据具有高维性和混沌性,要对这些数据进行有效的建模,还需要模拟出数据
随着无人机技术的成熟与发展,无人机被广泛应用于军事和民用领域。然而,无人机也十分容易遭受恶意的攻击,导致严重的后果。无人机的视觉系统在避障、跟踪、定位等方面发挥着巨大的作用,是无人机安全的重要保障,但是很少有研究者对它的安全性进行研究。因此,本文从攻击者的角度对无人机视觉传感器的CMOS和检测模型设计了两种攻击方法,旨在研究无人机视觉系统的安全性。本文的具体工作如下:1)针对无人机视觉传感器的CM
多目标优化问题普遍存在于科学研究与工程应用中,其由多个相互冲突的优化目标组成,往往一个目标性能得到提升时会导致其它数个目标性能的下降。当目标空间维度超过3时,称之为超多目标优化问题;当决策空间维度超过100时,称之为大规模多目标优化问题,以上两类高维优化问题是当前智能计算领域的热点课题,具有重要研究意义。多目标优化属于NP难题,难以在有限的时间内计算出最优解,所以通常利用多目标进化算法快速地搜索出
域适应作为机器学习的新兴领域之一,目前已在语义分割,图像检测等方面取得了广泛的应用。在域适应中,通常目标域样本完全无标签,这种场景被称为无监督域适应(UDA)。当前,尽管已有许多UDA模型被提出,然而这些方法大多只考虑源域信息如何利用,没有从更深层次挖掘域之间的关系信息,这为本文留下了改进空间。此外,随着域适应场景中源域可获得信息逐渐减少,逐渐诱导出无源域适应,完全无监督域适应等场景。为此,本文尝
在“十四五”规划中重点强调了高性能MEMS传感器的研制。鉴于传统的硅基MEMS压力传感器普遍具有温度漂移和时间漂移等缺点,本文从抗干扰的角度出发,基于信噪比理论对MEMS压力传感器芯片进行了结构设计,并结合恒温控制和恒流源自校正方法显著提升了其性能,论文的主要研究内容如下:首先,理论分析了基于惠斯通电桥结构的压力传感器工作原理,简介了传感器温漂和时漂产生原因。通过ANSYS模拟仿真设计了多种压力传
分类是数据挖掘和机器学习领域中最基本、最具代表性的问题,精准且高效的分类是许多科学研究和应用工程的基础。进化计算(Evolutionary Computation,EC)技术由于具有较好的全局寻优能力,已成功地应用于解决许多问题,例如:分类问题,特征选择问题等。其演化出的进化分类模型便是用于求解分类问题的方法之一。近年来,头脑风暴优化算法(Brain Storm Optimization,BSO)
交通流量数据是一种典型的具有非线性特征的数据集,同时收集到的交通流量数据由于受多种因素的影响表现出高度随机性。因此,建立基于多因素交互影响的短时交通流量预测模型具有现实意义。本文基于深度学习的方法和模型,利用卷积神经网络和长短期记忆神经网络建立短时交通流量预测模型。主要研究内容如下:(1)提出了一种带有因果卷积模块的TCN-LSTM模型,该模型在特征提取部分由两个子网组成,一是基于原始交通流量数据
随着视频成像和多媒体技术的进步,视频技术正朝着超高清和立体化的方向发展,为了解决立体视频高效压缩问题,视频编码联合组在高效视频编码(High Efficient Video Coding,HEVC)标准的基础上发布了3D高效视频编码(3D-HEVC)标准。但是新的标准在最大限度的去除数据冗余的同时,对视频的画质也造成了一定的影响。因此,如何有效地消除视频中存在的失真和孔洞,提升视频的质量,是迫切需
随着数据采集设备智能化及自动化的不断发展,数据采集更加方便,数据采集的内容更具多样性,数据维度不断增加,采集频次也在不断增强。当前,气象数据的采集多呈现为以分钟记录。气象部门在气象监测设备的更新与改造方面每年投入大量的资金,其目的并不只是为了记录数据,而是通过收集数据期望能够从中挖掘出某些气象规律,更好地服务于经济社会之需。近年来,随着深度神经网络技术地发展,研究人员在利用时间序列进行预报方面做了