基于深度卷积神经网络的视觉显著性计算研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:lsh01015
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机视觉技术的发展,视觉显著性计算在近些年取得了快速的发展,在视频压缩,美学裁剪等领域得到了广泛应用,同时也催生了显著性预测,显著性目标检测等子任务。然而,现有方法仍然存在多目标场景预测不准确,特征利用不充分,分割边缘模糊等问题。本文针对显著性预测和显著性目标检测两个任务进行研究,通过分析现有算法存在的问题,提出了两种算法。本文的主要工作如下:(1)提出了一种基于注意力机制和特征精炼的显著性预测算法。现有方法大多数使用单尺度特征策略,部分方法虽然通过多尺度结构进行改进,但仍然缺乏有效的特征筛选机制。针对上述问题,本文提出了一种基于注意力机制和特征精炼的方法,通过特征精炼模块和平行注意力模块分别模拟视觉感知过程中的集中性和指向性。具体而言,特征精炼模块通过多尺度多感受野的机制,辅助模型在多目标场景下,自适应地选择合适的感受野提取特征。平行注意力模块则通过并行结构同时学习特征全局信息和局部上下文,辅助模型学习显著物体的类别与位置。实验表明,本文提出的算法在AUC,CC等多项指标上有提升,具有较好的泛化性。(2)提出了一种基于特征融合与边缘优化的显著性目标检测算法。现有方法主要关注显著物体内部一致性与边缘质量,为此,大部分方法通过特征融合提升内部一致性,通过损失函数或多任务学习方法提升边缘质量。然而,现存方法在特征融合时存在特征利用不充分或引入融合噪声的问题,导致融合效果欠佳。此外,当前方法在边缘优化上仍然有较大改进空间。针对上述两个问题,本文提出一种基于特征融合和边缘优化的方法。具体而言,该方法通过金字塔特征融合模块进行两阶段融合,既避免了融合噪声的引入,又充分利用了多层次特征的信息。此外,通过边缘优化模块在浅层加入边缘监督信号,显式地驱使模型学习显著边缘相关特征,提升边缘效果。实验表明,本算法在MAE,F-measure等多项指标上有提升,证明了该算法的有效性。
其他文献
超声多普勒技术可以实现非介入式的血流速度估计,为临床诊断提供了便利,因此受到了广泛的应用。目前常用的医学超声系统通常采用双工发射,其中B模式脉冲用于成像,多普勒脉冲则用于进行血流速度估计。为了提高B模式图像更新频率,这就要求发射稀疏脉冲完成血流速度估计。传统使用的自相关与Welch等算法存在分辨率较低且在使用稀疏发射脉冲时存在伪影等问题。为了解决这些问题,研究者先后提出了多种算法,但这些算法都存在
学位
人类天生对三维信息感知的偏好以及近年来发展迅猛的3D游戏、影视等产业不断推动着三维人脸重建技术的发展。自从著名的3DMM模型提出以来,三维人脸重建领域涌现了大量的工作,其中基于深度学习技术的方法备受关注。然而基于深度学习的方法面临着缺乏大规模三维人脸训练数据的问题,这在很大程度上限制了模型的非线性建模能力。另一方面,人脸图像合成技术,作为早期三维人脸重建的重要应用之一,在隐私保护、影视制作等领域扮
学位
骨髓细胞形态学检查是急性白血病诊断和治疗疗效评估的基础项目。骨髓细胞细粒度分类是检查过程中最重要的环节之一,目的是根据细胞系列以及生长阶段将骨髓细胞划分为不同类别,是急性白血病自动诊断系统的关键技术,对提高临床诊断效率与诊断水平具有重要意义。因此,骨髓细胞细粒度分类是一个值得深入研究的课题。然而,骨髓细胞种类繁多,不同类别的细胞之间相似性大,极易混淆;而同一类别的细胞形态具有多样性,容易造成错误判
学位
视频时空超分辨率增强(Space-Time Video Super-Resolution,STVSR)是计算机视觉的一个重要研究方向,是指利用相同动态场景下的多帧低分辨率视频序列,重构出高帧率高分辨率视频序列。目前视频时空超分辨率增强包括了两个方面,一个是视频插帧处理,增强运动信息;另一个是视频超分辨率处理,增强图像细节。视频时空超分辨率增强的重点在于时序信息与空间信息的相互作用。基于深度学习的实
学位
视觉情感识别对经济、社会和科学技术都有着重要意义,在不同领域有着巨大的应用市场,已吸引了不少研究人员的注意。在国内外研究人员的共同努力下,视觉情感识别取得了重大进展,但仍存在一些不足:例如现有情感数据集缺乏语义标签,难以有效利用情感与图片中语义信息的密切联系;情感作为一种抽象概念,现有工作没有充分考虑视觉信息中与情感相关的隐含信息等。针对以上问题,本文开展了以下研究工作:(1)提出了一种融合自监督
学位
数字滤波器在许多信号处理的应用中占据重要地位,对构建高能效的DSP系统至关重要。然而,数字滤波器通常采用芯片实现,其设计面临着极小面积和极低功耗的双重挑战。有限冲激响应(FIR)滤波器满足这些严苛要求尤为困难,因为FIR滤波器在面对高频率选择性要求时,所需要的运算单元将以多个数量级高于无限冲激响应(IIR)滤波器。学界关于降低FIR滤波器算数复杂度的研究已经进行了几十年,许多方法相继被提出,包括迭
学位
我国已进入老龄化社会,老年住院患者容易发生走失行为,这给患者及医院带来了严重影响。本文从管理角度对老年住院患者走失的定义、走失风险管理的研究进展进行综述,以提高临床医护人员对老年住院患者走失的关注度并对临床制订及实施有效的安全管理措施、流程提供参考。
期刊
基于文本描述的行人重识别,指的是给定特定行人的文本描述,算法模型在图像库中寻找到该行人对应的图像,它在监控领域上具有广泛的应用前景。然而,由于图像与文本间模态的异质性和文本描述的无序性,现有方法需要借助跨模态注意力操作或者额外的手工标注才能提取到对齐的跨模态局部特征,这带来了较大的计算或人力成本。此外,文本描述的质量参差不齐和形式变化剧烈导致了模型训练的波动和模型鲁棒性的降低。因此,针对以上问题,
学位
近年来,深度卷积神经网络得到了迅速发展,并在各个领域发挥巨大作用。然而各种智能设备往往储存空间和计算资源有限,不适于部署较复杂的深度模型。在模型压缩方法中,模型量化技术由于可以极大降低模型的复杂度而受到越来越多的关注。本文主要对模型量化方法进行研究,主要工作包括:(1)提出一种跨范围量化方法。当前常用的可学习量化函数对全精度模型进行量化会带来一定的性能损失,其中的一个原因在于其对较大的数值采取简单
学位
图像在采集、传输等处理过程中易引入失真造成降质,图像质量评价是评判图像处理系统性能的重要指标。在很多实际应用场合往往只能获得降质图像,因此无参考图像质量评价算法具有重要应用价值。传统的无参考图像质量评价算法利用人工精心设计的统计特征表征图像失真程度,模型参数适应性较低、泛化能力较差。近年基于深度学习的真实失真图像质量评价算法被提出,较好地解决了评价算法泛化能力问题,但对真实失真多样性的建模能力不佳
学位