【摘 要】
:
视频动作检测是计算机视觉中的重要应用,它包括视频动作分类和视频动作定位两项任务。具体来说,视频检测算法需要在视频中查找每个动作实例发生的起止时间以及该动作的所属类别。视频动作检测在许多实际应用中都起着关键作用,例如,智能监控,视频检索,体感游戏,医疗健康和智能设备控制。尽管随着深度学习的发展,短视频分类任务取得了巨大的进步。但是在现实场景中,我们面临的更多的是未经过修剪的长视频,视频动作检测仍然是
论文部分内容阅读
视频动作检测是计算机视觉中的重要应用,它包括视频动作分类和视频动作定位两项任务。具体来说,视频检测算法需要在视频中查找每个动作实例发生的起止时间以及该动作的所属类别。视频动作检测在许多实际应用中都起着关键作用,例如,智能监控,视频检索,体感游戏,医疗健康和智能设备控制。尽管随着深度学习的发展,短视频分类任务取得了巨大的进步。但是在现实场景中,我们面临的更多的是未经过修剪的长视频,视频动作检测仍然是一个更具挑战性的问题。为了解决视频动作中主体区域的提取困难以及视频检测中两个子任务之间存在的内在差异,本文提出了一种基于区域增强和敏感特征选择的视频动作检测结构框架。主要贡献总结如下:(1)提出了基于动作区域选择的自适应增强方法。该方法的核心在于让网络关注视频的动作区域,提升动作区域对视频检测任务的贡献同时抑制干扰区域对检测任务的影响。具体地,通过对抗训练以及代价函数的设计,让网络自主的学习到视频中的动作区域,同时引入了mask机制,引导网络渐进地扩大动作区域的贡献率,提高网络对动作的识别能力。(2)提出了敏感特征选择方法。动作分类的核心在于从众多视频帧中提取关键帧,动作定位任务则要求学习帧与帧之间的相关性。基于两个任务之间的内在差异,本文提出了一种敏感特征选择方法,该方法包含两个子模块来分别完成分类和定位的任务。前者对视频每帧的重要性进行打分,后者对帧与帧之间的相关性进行建模,实验结果表明该模块的设计能够更好的满足视频动作检测任务的需求。综合以上设计,本文提出的模型在THUMOS14数据集上的mAP@0.5达到了38.97%,比基本模型(SSN+BSN)高出2%,相较于基准方法(SSN)提高了5%。同时,实验结果表明,在不同的基础网络上嵌入本文提出的结构模块,均能取得性能的提升。
其他文献
当今不断发展的社会,显著提高的生活水平,都表明科技在我们的日常生活中扮演着越来越重要的角色。此时一些扛着高科技旗帜的生物制药企业纷纷出现。对于现如今急需提高科技发展水平的我国,生物制药企业显然具备非常重要的战略意义,为促进生物制药行业的稳步发展,国家政府因此出台了多项优惠政策。我国以提高科学技术发展水平为目的,加大了对其的关注力度并耗费了海量的资金。在我国政府的极力推广和大力扶持下,越来越多的生物
股东表决权毋庸置疑是股东最重要的权利之一,无论在公司经营管理中抑或是在公司法的理论研究中都具有很高的地位。股东表决权交易是指股东之间或者公司与股东之间就特定表决事项达成协议,一方依照另一方的要求进行表决,以获得特定对价利益的行为。随着经济的不断发展,公司制度的不断创新,股东表决权交易问题逐渐得到了很多学者的关注。但是,目前世界各国对于股东表决权交易普遍持否定态度,笔者通过总结学者们的相关观点,认为
近年来,互联网和物联网的融合与发展,吸引众多学者对复杂网络进行研究。复杂网络的研究在众多领域具有重要的应用价值,例如在生物领域检测蛋白质作用的复合体,在商业领域进行
风云四号闪电成像仪LMI(Lightning Mapping Imager)作为全新的静止卫星闪电探测系统,为我国闪电活动的特征分析以及雷暴活动的监测预警提供了大量的观测资料。目前国家气象卫星数据中心公布的闪电探测数据是L2级事件,并没有物理意义,因此将LMI的探测数据聚类到闪电是卫星闪电数据应用的第一步。在确定LMI的聚类算法时,需要考虑极轨卫星和静止卫星闪电成像仪的差异,即考虑像元空间分辨率对
随着新能源电力的快速发展,以风力发电弃风现象为主的可再生能源电力消纳问题愈加严重。氢储能技术既可以保障风电的平滑输出,又可以提高电源质量,是缓解新能源发电矛盾的有
在大数据时代和信息时代,有着海量的信息,也存在不少冗杂的内容,导致用户有时无法在短时间内发现感兴趣的信息。所以,个性化推荐系统在很多领域都有应用,例如:新闻社交、电子商务、视频媒体等。推荐算法是推荐系统中的重要组成,种类繁多。Slope One是一种基于项目的协同过滤算法,它经典、实用,实现的过程简便、高效,已经得到了广泛应用。不过,它未衡量到用户间的相似性,未考虑到项目间的相似度问题,对预测准确
现实生活中,同一物体往往可以通过不同的视角进行描述,从而产生了大量的多视角数据。尽管通过不同视角的描述,同一个物体可以获得更好的表示,但是同类不同视角的数据之间巨大的差异,也给跨视角数据之间的分类任务造成了很大的挑战。因此,跨视角分类问题具有重大的研究价值。近年来,基于低秩多视角子空间学习(Low-rank Multi-view Subspace Learning,LMvSL)的方法可以有效地解决
车载热成像行人检测系统通过热成像传感器获取场景信息,使用模式识别技术检测道路场景中的行人。现有的方法多将图像行人与背景作为二类分类问题处理。道路场景动态,行人属非
图像修复最早可以追溯到文艺复兴,当时用来对艺术画作的缺失区域做修补。该技术能广泛地应用在医疗、军事、影视及教育等多个领域,正吸引着越来越多的学者投入到研究之中。但