基于多时间尺度双流CNN和度量学习的视频语义概念检测

来源 :江苏大学 | 被引量 : 0次 | 上传用户:gyquan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能携带设备的兴起所引来的自媒体时代的高速发展,用户在网络上记录、观看和分享视频成为了人们在日常生活中用来表达和传递情感的不可或缺的方式之一。活跃在日常生活中的视频数据一方面给人们带来便利,另一方面若监管不严,肆意传播不良视频内容也会给社会大众尤其是青少年人群产生恶劣的影响。在面对数量迅猛增加的海量网上视频、图像等多媒体数据,如何甄别视频序列内容,实现视频语义概念建模从而对视频合理分类成为计算机视觉领域的热点研究课题之一,无论在民用领域还是在军用领域都有及其广泛的应用,得到了国内外众多研究者的关注。本文经过研究了国内外大量文献基础上,首先介绍视频语义概念检测领域的研究背景、意义以及国内外研究现状,其次,介绍了几种深度学习网络模型,简述了视频语义概念检测技术的相关知识。针对视频语义概念检测技术中所存在的问题,重点研究和提出多时间尺度双流CNN与置信融合的视频动作语义检测方法和结合多时间尺度双流CNN和度量学习的视频语义概念检测方法,并且为验证本文所提出的方法在视频语义概念分析任务中的实用性,设计实现了视频语义概念检测原型系统。本文的主要工作内容具体如下:(1)为解决过分依赖背景和外貌特征,以及由于视频长度的限制导致的缺少学习长序列特征能力的问题,同时考虑到视频采样的变化和目标主体运动速度的不同,以及多种动作分类器分类置信程度不同的问题,提出多时间尺度双流CNN与置信融合的视频动作语义检测方法。该方法对视频序列采用两流神经网络在多个时间尺度上学习并提取不同时间跨度的视频帧之间的上下文信息特征,并采用LSTM进行多种特征的动作语义类别预测。然后,对每一种尺度与模态的动作分类器,建立综合考虑样本所属类别与其它类别的总体差异性和所属类别的唯一性情形的类别判定置信度,最后,采用各分类器对动作类别判定的置信度与类别得分进行动作语义决策融合,实现动作语义检测。实验结果表明,所提出的方法能有效提高视频动作语义检测的准确率。(2)为解决针对视频内容的多样性和不同环境的影响,造成类内差距较大和类间相似性较大的问题,在原有的模型框架基础上,结合视频语义概念之间类别差异性度量分析,提出多时间尺度双流CNN和度量学习的视频语义概念检测方法。该方法中网络模型通过多任务学习的训练方式,同时训练相似性度量和语义概念分类检测两个子任务。由深度网络进行特征学习,同时由度量学习进行特征间的相似性度量,以对特征进行约束并分类。通过度量学习计算视频样本特征间的距离作为语义差异度,网络根据样本语义差异度计算误差进行反向传播更新参数,从而能够学习到样本语义概念之间的差异性。在UCF101上的实验结果表明,在多时间尺度双流CNN中引入相似性度量可以增强网络的特征提取能力,进一步提高视频语义概念检测准确性。(3)采用Python作为系统的开发语言,PyQt界面库作为图像界面开发环境设计实现视频语义概念检测原型系统。该系统由数据预处理、模型训练、视频语义概念检测等子模块组成,系统界面简洁友好,可操作性强,验证了本文所提出的视频语义概念分析方法的可用性。
其他文献
近年来,低秩图像修复成为研究的热门话题,在医学图像、文物图像、监控视频等都有着重要应用,具有代表性的是低秩矩阵恢复,其研究的主要问题是尽可能完全从某些元素被破坏的矩阵中恢复出原始矩阵,低秩矩阵恢复在低秩灰度图像修复上已经取得了比较好的效果。本文将低秩矩阵恢复研究推向张量层面,讨论研究张量鲁棒性主成分分析(Robust Principal Component Analysis,RPCA)在进行灰度图
物联网(Internet Of Things,Io T)如今已深入到个人生活和工业生产的各个方面,智能设备大量出现在家庭生活中,为用户带来舒适和便利。然而由于智能家居系统复杂多变,用户缺乏
压缩感知通过少量非自适应的线性测量有效获取稀疏信号,是一种新型的采样方法.它突破了传统的香农采样定理的局限性,以远低于香农采样率的数据实现原始信号的精确恢复.本文主
随着稀土产业不断向大型化、集中化、连续化方向发展,建立高效稳定、智能化程度更高的产业线是未来的趋势。在实际现场中,由于存在外界环境及萃取工业系统内部因素的干扰,需
摩擦磨损现象普遍存在于工业生产及日常生活中,由磨损造成的经济损失,约占整体能源消耗的30%50%。通过在金属基体表面制备复合材料层可显著提高其耐磨性,耐磨层对提高产品的使用寿命、节约能源、降低成本等方面有重要意义。本文采用激光熔注技术在4Cr5MoSiV1热作模具钢表面制备微米、纳米及多尺度WC颗粒增强Fe基复合材料层,研究了工艺参数对复合材料层形貌的影响规律,分析了不同颗粒尺寸WC/Fe复合材料
现实世界中图像受到许多因素的干扰导致质量上的下降,主要有噪声和模糊的表现形式。检测和分析出图像中这些降质的量化程度是很多计算机视觉任务中的重要环节。本文的工作就
行人检测(Pedestrian Detection)是目标检测(Object Detection)中针对行人目标进行定位和识别的子问题,一直是计算机视觉领域中的研究热点和难点。同时具有极高的应用和研究
[目的]Y染色体的男性特异性区域(MSY)由父亲传递给儿子,不发生交换重组,广泛应用于家谱分析、法医证据检查、历史调查和DNA数据库建设等遗传学研究。姓氏,是人类社会的独特文
本文是对航天器动力学模型,包括整星系统和卫星飞轮系统动力学模型,非线性减振与能量采集问题的研究。整星系统以整星非线性减振缩比实验中提出的带有非线性能量阱(Nonlinear energy sink,NES)的两自由度整星耦合系统的等效模型作为研究对象,运用复化平均法分析了耦合系统动力学特性,验证了非线性能量阱整星减振实验结果。提出了一种利用非线性能量阱实现飞轮系统减振的方法,将NES引入到由飞轮和
随着精密制造业的快速发展和技术的不断进步,以高精度和高效率见长的高速镗削技术在机械加工领域得到了广泛应用,高速旋转复合材料镗杆应运而生。用复合材料镗杆替代金属制造镗杆的优越性体现在:它具有高静态刚度和高阻尼以及非常高的比刚度,能同时提高包括镗杆在内的机床结构的动态刚度和基本固有频率,可用于深孔高速加工。然而,由于复合材料镗杆具有较高的阻尼,研究材料内阻对旋转复合材料镗杆的动力学与稳定性的影响,势在