基于注意力机制的目标检测算法研究

来源 :西安工业大学 | 被引量 : 0次 | 上传用户:tzxyqzch
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的目标检测算法通常使用滑动窗口进行区域选择,提取所选区域中的特征向量输入到分类器中完成分类。这会造成大量窗口冗余,降低算法效率。后来学界广泛使用基于深度学习的算法,其多是通过卷积核遍历图像中的特征向量,完成检测任务。相比较于传统算法,虽然基于深度学习的检测算法极大的提高了目标检测的精度,但是该算法通过遍历所有特征向量完成检测任务,而在一张图片中,最有用的信息往往仅存在于目标周围的区域。因此,遍历的方式会增加不必要的计算量。为解决上述问题,本文针对计算机视觉中的注意力机制展开研究,计算机视觉中的注意力机制可以模仿人眼观察事物的方式,对于待检测图片,能够选择性的提取部分图像的特征向量完成检测任务,充分利用上下文信息,减少不必要的计算量。本文首先分析了现阶段目标检测算法的研究现状;随后在先前研究工作的基础上提出基于时序注意力机制的目标检测算法和基于改进自注意力机制的目标检测算法;最后,通过在一些通用数据集上的实验验证,证明两个目标检测算法在检测精度和时间复杂度方面均有较为优异的结果。本文的主要研究工作如下:(1)通过联系上下文信息的方式,可以减少不必要的特征向量计算,因此,本文设计了一个基于时序注意力机制的目标检测算法。首先,以循环神经网络作为该算法网络模型的主干结构,基于循环神经网络每一个循环时间步可以提取到不同区域的特征向量这一特点,使主干网络能够融合局部区域中的详细信息和粗略的上下文信息,实现基于时间域的注意力机制。最后,通过在策略集合中采样,决定下一时间步需要提取特征的位置。在多个通用数据集上的实验结果表明,本文提出的算法模型可以在不提取待检测图像所有特征向量的前提下,循环5个时间步长,使用约20M参数完成目标检测任务,在PASCAL VOC数据集上的平均准确率为87.4%。(2)循环神经网络存在时序递归问题无法做并行计算,从而只能完成单一目标检测。为了使得网络既能够充分利用上下文信息减少计算复杂度,又能够完成多目标检测任务,本文设计了一个基于改进自注意力机制的目标检测算法。首先,以Transformer模型作为本算法网络模型的主干结构,通过编码器中的改进自注意力—十字形自注意力机制,计算图片各部分的关联度。随后,该模型将带有图像各个部分权重和位置信息的特征向量输入检测任务头中。最后,由检测网络输出目标的分类结果和位置。通过实验结果证明,本文所提出的网络模型完成检测任务时所需的参数量约为80M,在COCO 2014数据集上可以达到约48AP的准确率,且由于检测头中包含基于注意力的NMS方法,使得模型在遮挡目标检测和复杂场景检测方面性能突出,在具有密集场景的City Persons数据集上可以达到约52AP的准确率。
其他文献
随着操作系统的不断发展,各种手机操作系统、居家智能操作系统等都有了广泛应用,嵌入式操作系统的网络协议栈需要适应不同的应用环境。在传统的嵌入式操作系统网络协议栈中,数据链路层中的数据帧处理方式过于简单而无法满足一些负载的情况,为了使数据链路层减少对系统的负荷,更加适应各类应用,本课题针对中航工业研究所自研的国产化某嵌入式操作系统,设计符合要求的网络协议栈的数据链路层,对ARP协议功能进行改进,并加入
学位
随着我国航空航天事业的不断发展,保障飞机的安全飞行也成为了重中之重。机载设备对飞机的安全起到了关键性的作用,因此研究国产OS在机载设备中的应用以及对嵌入式实时操作系统的自主可控成为了关键问题。国产OS作为我国机载设备的核心系统,其对OS的实时性、高效性以及稳定性有着十分高的要求。然而嵌入式设备存在内存等各种资源有限的问题,OS中传统的TCP/IP网络协议栈中协议众多,对内存等各方面的资源占用比较大
学位
近年来,得益于计算机性能的大幅度提升,计算资源成本下降和大规模标记数据的快速增长,多层次的深度神经网络迎来了研究热潮。在计算机视觉和自然语言分析等领域中,深度神经网络表现出强大的学习能力。然而,随着理论分析与工程应用问题研究的不断发展,深度神经网络仍面临着诸多挑战。如网络结构设计要求过高,参数优化耗时长和网络性能不稳定等。早在上个世纪90年代,就有学者证明浅层的神经网络结构优化为NP(Non-de
学位
柑橘是一类具有重要经济价值的木本果树,但是受柑橘多胚性、童期长的影响,通过传统的育种手段改良柑橘非常困难。利用现代生物技术可以有效地改良柑橘品种。体细胞胚发生(Somatic Embryogenesis,SE)是离体再生植株的重要途径,但柑橘愈伤组织在长期继代过程中胚性会减弱甚至难以生胚,是持续利用愈伤组织改良柑橘的主要障碍。本研究通过比较生胚能力有差异的W.默科特橘橙(W.M)胚性愈伤组织在全基
学位
类黄酮是一类具有丰富生物活性的多酚类次生代谢物,广泛分布于柑橘各组织中,影响植株的抗逆性、果实的风味和色泽品质等。类黄酮3’-羟化酶(F3’H)是类黄酮生物合成途径上的一种多功能酶,催化类黄酮骨架B环上3’位羟基化,在花青素合成途径中扮演重要角色。本研究克隆了不同柑橘种质F3’H基因启动子区域,分析了其顺式作用元件的差异,并在本氏烟草叶片和纽荷尔脐橙愈伤组织中瞬时表达,以比较不同启动子活性的差异,
学位
数据链是一种传输和分发格式化消息的通信指挥系统,能使得原本独立的作战平台之间相互联系起来。高可用性直升机数据链提供的高可靠性服务是作战指挥的基础保障,因此对直升机数据链系统进行可用性评估已成为一个亟待满足的需求。本文基于可用性理论及Link-16数据链技术,给出了对数据链系统可用性进行评估的Markov稳态可用度模型。以此为基础,进一步考虑战术环境下大量业务数据的交换需求,以及数据链系统“能否在规
学位
柑橘是我国一种非常重要的经济作物,种植面积很广,但8年以上的童期,严重制约了柑橘的育种进程。因此,如何缩短幼龄是果树分子生物学研究的热点和难点。而FLOWERING LOCUS C(FLC)是抑制柑橘开花的关键基因,一般通过抑制FLC的转录及其蛋白质表达水平,从而促进柑橘开花。CRISPR/Cas9在基因编辑技术上已显示出其优越性,并已迅速应用于多种生物体的研究。与TALENS/ZFNs的基因组编
学位
信息技术的发展日新月异,越来越多的复杂装备亦朝着信息化发展,自行火炮作为典型的复杂装备而言,其自动化、集成化与复杂化程度也在日益增加,因此对自行火炮进行故障诊断研究就十分必要。传统针对自行火炮的故障诊断方法需要依赖大量的人力资源与专家知识,这无疑增加了进行故障诊断的时间复杂度。得益于机器学习的发展,以数据驱动为内核的故障诊断技术逐渐映入研究者眼帘,根据自行火炮状态数据建立合适的机器学习模型,进而可
学位
GIGANTEA(GI)作为植物生长发育过程一个重要的基因,它编码一种核蛋白。本实验主要从Cl GI基因及启动子入手研究GI在柑橘成花及干旱胁迫中的功能及调控机制。从柠檬中克隆出Cl GI基因,分别构建了超表达载体、CRISPR载体和其启动子融合GUS蛋白载体,随后进行拟南芥、烟草及柠檬的遗传转化。主要研究结果如下:1.从柠檬中克隆Cl GI基因,测序后发现Cl GI有两个转录本,转录本和剪切本分
学位
猕猴桃是呼吸跃变型水果,采收后果实的硬度呈下降趋势,其软化程度是判段果实成熟度的重要指标。淀粉降解与猕猴桃果实软化的关系十分密切,直接影响到果实的贮藏性和货架期。淀粉合成并储藏于淀粉体中,因此研究猕猴桃果实淀粉体中淀粉代谢对于揭示淀粉降解与果实软化具有重要的理论意义和应用价值。本研究以美味猕猴桃海沃德(Actinidia deliciosa Hyward,HWD)、中华猕猴桃金果(Actinidi
学位