基于深度神经网络的视频显著性预测研究

来源 :深圳大学 | 被引量 : 0次 | 上传用户:win1917
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频是当今社交媒体中最常见的内容之一,近年来随着短视频平台的兴起,日常视频数据的生成量呈现出爆炸式增长的趋势,这给计算机视觉系统提出了更高的信息处理要求。而对于人类视觉系统而言,实时高效地处理视觉信息是其与生俱来的能力,原因在于该系统存在一种注意机制,这种机制可以从人眼获取的大量视觉信息中筛选出最主要的一部分并将其分配给大脑优先处理,从而实现从视觉感知到理解的高速响应。视觉显著性预测则是通过计算机技术模拟人类视觉系统的这种注意机制来达到高效处理大量视觉信息的效果,具体到处理数字图像和视频的任务上,即为检测出图像或视频帧中最引人注目的区域,生成显著性图或序列。目前,图像显著性预测已发展得相当成熟,特别是深度学习技术的高速发展更是为其带来巨大的性能提升。相比而言,视频显著性预测的研究起步较晚,且由于视频存在目标运动、场景转换、计算复杂度高等特性,使得视频显著性预测更具挑战性。实际地,在对视频显著性建模时往往需要额外获取视频数据的时间特征,如何增强时间特征的鲁棒性并有机地进行时空特征融合?这仍需进一步探索。本文的研究即着眼于这一颇具挑战性的问题,通过结合前沿深度学习技术的应用来探讨视频显著性预测性能进一步提升的可能性和实践性,主要包括两个创新点:1)提出一种局部与长期时空特征增强网络(STE-Net),该网络能够通过获取多尺度的空间特征来弥补现有视频显著性预测模型未考虑局部时空显著性的缺陷,并引入注意力机制来解决部分模型应用长短期记忆模型时存在的记忆压缩问题,同时将空间和时间特征以一种非线性的方式进行融合以充分挖掘两者的上下文相关性;2)提出一种帧间相关性与语义线索精炼网络(STA3D),充分利用了三维卷积神经网络在提取视频数据特征方面的优势,并针对现有基于简单三维卷积神经网络的视频显著性预测模型的不足,加入注意力引导来解决其存在的帧间信息学习不充分、空间特征优化不精确等问题。STE-Net是基于二维卷积神经网络的模型,STA3D是基于三维卷积神经网络的模型,相比之下,后者在学习视频数据的时空特征上呈现出递进式的改良。最后,本文在DHF1K、Hollywood2-actions、UCF-sports三个数据集上进行了大量的实验,并通过归一化扫描路径显著性(NSS)、线性相关系数(CC)、相似性测度(SIM)以及两种AUC变体(AUC-J和s-AUC)等评价指标进行评测,充分验证了上述两种网络模型的有效性和高效性。
其他文献
中速磨煤机是燃煤电厂制粉系统的重要辅机,其运行状态会直接对锅炉内部的燃烧造成重大影响。因此针对中速磨煤机的运行状态分析和故障诊断预警研究,对于保障燃煤电厂机组的安全性、经济性有重大意义。本文以HP型中速磨煤机为例,利用多元状态估计技术建立了磨煤机运行状态异常预警模型和堵煤故障预警模型。本文首先对中速磨煤机的机械结构、运行机理、监测参数和常见故障进行分析、研究和总结。并结合机理分析和专家意见筛选出适
智能投顾是近年来金融科技催生下智能金融的典型代表。因投资门槛低、服务费率低、服务效率高、个性化定制等优势,智能投顾服务从2008年最早在美国推出到现在短短十几年时间内,便获得爆发态势增长。目前我国智能投顾发展势头十足,成为各路资本竞相争夺的新市场蓝海。作为一个舶来品,智能投顾需要面对我国金融市场的发展现状、法律制度环境等国内外差异,在落地本土过程中也逐渐暴露出许多问题,限制其在我国的健康持续发展。
本文基于利率市场化改革的宏观背景,梳理了利率市场化影响保险公司投资效率相关问题的国内外文献,分析了利率市场化影响保险公司投资效率的现状及理论机理。利用后金融危机时代2008-2019时间段内保险公司的微观数据,借助多元回归分析方法,对保险公司受利率市场化影响的程度进行了实证研究。本文的研究结果表明:(1)我国的利率市场化改革正向纵深处推进,虽然与完全利率市场化还存在一定的距离,但近几年来利率市场化
中国的海外投资是政府主导型的海外投资,在此过程中中国的国有企业扮演了重要的角色,是中国海外投资的主力军和国家政策的执行者。由于国有企业是由中国政府直接投资或控股的,所以国有企业在海外投资中因腐败行为导致的损失不但是国有企业经济利益的损失,也是中国政府经济和战略利益的损失。近年来伴随着中国国有企业腐败资产跨境转移现象普遍增多,如何对国有企业在海外投资中的腐败资产进行追回就成为迫切需要解决的问题。中国
棚户区是当代中国经济改革开放发展过程中的一个阶段性独特现象。棚户区改造既是为了拉动城市建设和经济发展,又被作为国家重大的社会性和基础性的民生工程。2015年至2018年,在国家相关部委大力倡导下,货币化安置逐渐成为各地方政府开展改造的主要安置模式。相比实物安置模式,货币化安置政策有力地带动了商品房销售,但同时也客观上促进了城市房价普遍上涨,对地方政府隐性债务和居民部门杠杆率产生了负面影响。本文首先
随着互联网技术的持续发展,网络数据内容激增导致信息过载问题严重,给人们有效获取自己所需的信息带来困难。搜索引擎和推荐系统成为解决信息过载的两大有效手段。传统推荐系统存在着可解释性差、推荐内容单一、输入数据稀疏等问题。知识图谱是近年来新兴的研究热点之一。知识图谱有着强大的语义处理能力,是一种新型知识组织与检索技术,其语义网络信息的特点可为各领域带来新颖的研究方向,受到各领域的高度重视。推荐系统与知识
近年来,由于贿赂案件数量高发,我国对行贿罪的惩处越来越重视,立法上对行贿罪构成要件、罪刑配置的规定由粗疏到细致。然而,由于贿赂犯罪查处难度大以及“重受贿轻行贿”传统司法理念的影响,司法实践中对行贿犯罪的处罚一直偏轻。党“十八大”以来,国家重拳惩治腐败,2015年11月生效的《刑法修正案(九)》对行贿罪增设罚金刑、严格限缩从宽幅度,体现了对行贿罪从严打击的决心。为考察当前司法实践中行贿罪处罚的实然状
近年来,随着消费电子的高速发展,越来越多的厂商关注起了3D成像技术。特别是苹果公司的iphone X推出的智能3D人脸识别技术掀起了各大厂商对3D成像技术的研究热潮。相位式飞行时间(Time-Of-Flight,TOF)成像技术是一种比较受人关注的新兴3D成像技术。目前在自动驾驶,机器人视觉,虚拟现实,人工智能,3D建模等领域都有着广泛的应用,因其高分辨率,较高的精度,较快的成像速度极大的促进了相
人工耳蜗(Cochlear implant,CI)是一种能够帮助重度听力障碍患者重新恢复部分听觉感知的电子医学装置。对于正常听力者而言,能够利用双耳时间差和双耳强度差信息去辨别空间中声源的位置。然而双侧耳蜗植入者不能充分的感知ITDs信息,他们的空间听觉能力也因此受到限制。一个很重要的原因是目前大多数CI处理策略是基于对语音信号的时域包络进行信息提取的方式,摒弃了原始语音信号的时域精细结构(Tem
早期的推荐系统依赖特征工程,通过挖掘用户属性特征和物品属性特征的相关关系产生推荐,但是属性特征需要用户主动提供并且内容驳杂,具有多元异构、特征稀疏的特点,极大地限制了推荐系统的应用。相比于复杂的属性特征,用户和物品的交互行为属于用户的隐性反馈,是最容易获得并且能正面反映用户偏好的特征。将物品按照用户动作发生的时间排序,称为用户行为序列,该序列不仅包含用户的兴趣偏好而且具有连续稠密、结构简单的特点,