基于双线性注意力特征融合的弱监督目标检测

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:xiaoxiaoshixisheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目标检测在近年来一直都是众多学者研究的热点问题。其目的是对自然图像中的实例对象进行分类并找出实例对应位置的包围框,在医学图像检测、人脸识别、视频监控等领域都有着非常广泛的应用。传统的目标检测技术都是建立在大量带有精确注释的图像数据集基础上,然而收集并标注该类数据耗时耗力,相较之下,基于弱监督学习的目标检测仅利用图像级别注释信息的数据即可完成目标检测模型构建。图像级注释仅需标注图像中的类别信息,不需要目标实例的精确定位,因此更容易被获取。当前的弱监督目标检测大多是基于多实例学习的方法,但利用多实例学习受区域推荐算法的限制,导致其容易陷入局部优化,即检测到的包围框仅能包含目标对象的局部位置。另外,图像特征提取过程中不能充分利用其空间信息和全局上下文信息之间的相关性,使得识别准确率较低。本文针对如何获取高质量候选区域及提取图像高层语义信息等问题,提出了一种双线性注意力特征融合的端到端弱监督目标检测。具体研究内容如下:首先,本文提出了一种获取高质量候选区域的方法。结合Grad-CAM算法其类别信息高响应的特性,对输出每个特定类的激活映射,设置10个分割阈值,平均分布在激活映射的最大灰度值和所有像素的平均灰度值之间。通过获取到的阈值使用最大连通区域法得到一组边界盒作为对象建议,利用这些建议过滤选择性搜索中无关或包含少量目标的候选区域,大大提高了检测的速率。其次,本文提出了双线性注意力特征融合模型,结合一阶注意力的全局上下文模块获取全局特征之间的相关性,以及二阶的双线性池化模块提取图像的局部特征,得到两个相同维度的特征表示并将它们进行融合。对不同层次和尺度的特征进行有效的利用,得到图像的高层信息表示,并将此特征表示送入目标检测网络做分类和定位。最后,本文结合了一种在线实例分类细化,将获取到的候选区域和高层特征表示进行RIO Pooling得到的建议特征,提取的建议特征向量输入到深度检测网络中,进行多阶段的实例分支去细化多实例学习头。实验证明,本文的方法只检测高质量区域框,检测速度得到的显著的提升,其包含目标的区域框也更加完整;结合双线性注意力特征融合模块,不仅能保留图像特征信息,而且能够捕获图像位置上下文信息之间的相关性,减少特征提取过程中重要特征的丢失,大大提升了目标类别准确率。在PASCAL VOC 2007数据集上,本文方法在弱监督目标检测上取得了优秀的性能,平均精度(m AP)和定位精度(Cor Loc)分别达到了51.0%和70.1%的准确率。
其他文献
信息物理融合系统是一个将计算资源、物理环境和网络控制集成在一起的多层次的,高度复杂的、集成式的综合性系统。它通过网络通信,计算和控制等技术之间互相密切的结合,为各种工程系统提供信息网络服务和实时监控。CPS系统作为一个实时系统,具有高度的安全性、可靠高效等特点。信息物理融合系统必须通过传感器感知对物理环境的变化进行不间断的实时的感知,然后通过网络把这些感知的信息传递出去。CPS具有广泛的的应用前景
随着信息技术的不断发展,网络渐渐成为人们倾诉情感的重要场所,针对情感倾向的研究被人们广泛关注。在过去的情感分析研究中,较为传统的机器学习方法有KNN、朴素贝叶斯及SVM等算法,虽然这些传统算法的性能优良,但往往需要借助人力进行大量的特征标注,并且不具备较好的拓展性。而深度学习在最近几年被广泛地应用在各种自然语言处理的任务里。如CNN利用不同的卷积核提取局部特征进行情感分析,LSTM以及它的众多变体
随着互联网技术的飞速发展,线上的数据量正呈指数式增长,用户越来越难以从海量数据中找到精准的内容,推荐系统的出现正是为解决这一矛盾提供了思路。推荐系统通过利用用户对信息的交互行为将用户与其感兴趣的信息联系起来,从而帮助用户从海量信息中发现自己的潜在兴趣。如何利用用户的历史行为数据去预测用户偏好、发现用户潜在需求,并进而向用户推荐个性化内容成为推荐系统持续关注的热点问题。现有推荐方法在用户成分简单、个
随着近些年自动驾驶技术、激光扫描技术和机器人技术等的蓬勃发展,我们需要更多的信息来获得更好的环境感觉,而不仅仅是依靠图像、视频,这时三维数据就是一个很好的补充。三维点云因为其表达形式比较简单并且可以从激光雷达设备直接获得等优势而广泛应用在计算机视觉的三维数据表示。伴随着深度学习在三维视觉中的发展,生成或重建高分辨率、高保真的点云的能力变得至关重要。尽管深度学习模型最近在点云分类、点云目标检测和点云
在海量且多样化的数据充斥人们生活、工作、学习等方方面面的今天,如何在繁杂庞大的数据中高效、有效的检索到目标数据成为了检索研究方向一个亟待解决的重要问题。哈希检索因其检索上准确、快速的优点引起了大量关注。研究证明,在实际检索应用中有监督哈希方法要比无监督哈希方法的效果更好。时至今日,尽管有监督跨模态哈希技术已经有了不小的进展,但是仍然存在着一些问题需要解决。例如,大部分有监督哈希方法为了获取模态相似
芘类化合物是一类较为经典的蓝光材料(blue materials),在光电领域上的应用前景是非常广泛,芘类衍生物通过分子裁剪、结构调控等方法可选择性制备颜色精准可控的RGB三基色,最终实现全彩显色,蓝光在全彩显示中的地位举足轻重,而蓝光材料相对比红绿光材料来说其本身具有较高的能量、较低的效率发光和短的寿命导致蓝光材料的发展遇到瓶颈,因此为提升蓝光材料芘基有机半导体材料的性能,提高材料的寿命,以及制
脑血肿与脑肿瘤会对颅内正常组织会造成挤压效应,严重损害中枢神经,进而危及病人生命安全。治疗脑部病灶的手段一般为神经外科手术,医生需要在术前阶段对病灶医学影像进行诊断分析,常用医学影像分割技术辅助处理。然而,分割算法仍存在许多挑战与困难。在脑血肿分割中,病灶与正常组织之间边界模糊、灰度信息上表现相似,造成分割结果包含了正常组织,容易发生误诊现象;在脑肿瘤分割中,肿瘤包含浸润水肿部分、肿瘤核与坏疽部分
阿尔茨海默病(Alzheimer’s disease,AD)是一种最常见的脑组织神经疾病,其患者病症具体表现为记忆和思维能力的退化以及个人行为能力和社交能力的退化,且患有AD的人通常会伴随其它生理疾病。因此,AD的早期识别诊断对于减缓病情发展具有重要意义。针对阿尔茨海默症不同阶段人群难以识别的问题。本文首先使用卷积神经网络(Convolutional Neural Networks,CNN)方法对
在互联网信息技术迅猛发展的大背景下,在线学习资源开始大量涌现,导致诞生了更加丰富多元化的网络学习方式和教育手段,但是丰富的在线学习资源易造成“信息超载”这一现象的产生,导致学生在通过网络在线学习资源进行知识内容的学习时,容易产生“知识迷航”的问题。正因如此,关于个性化学习推荐领域的研究正成为热点。首先,本文提出一种二级结构知识地图。在学习者进行学习课程时,这种结构能够指引学习者更为充分了解课程的知
随着铝型材在国内建筑、汽车、制造等行业的广泛应用,中国已经成为全球最大的铝型材产地和消费市场。而挤压加工是铝型材生产中核心环节,其工艺参数直接决定铝型材的生产成本、效率和能耗,这与《中国制造2025》政策要求、企业发展需求密切相关,所以优化挤压工艺参数使得多个目标值达到最优成为铝型材研究领域的热点。传统的方法依靠经验或物理公式建立工艺参数与优化目标之间的映射关系十分困难,而且难以根据近期生产情况迅