【摘 要】
:
技术对于解决视频数据量不断增长所带来的浏览耗时的问题有着重要的意义。视频摘要即对视频的概括,按照生成的摘要形式可以分为静态视频摘要和动态视频摘要。在实际工程应用中,静态视频摘要技术更为常用,因此本文主要研究静态视频摘要算法,旨在通过一定的技术手段去除视频中的冗余信息,并选取视频中最能代表视频内容的关键帧生成简短的摘要。本文分析了现有的视频摘要算法所存在的一些不足之处,然后提出了两种全新的基于多特征
论文部分内容阅读
技术对于解决视频数据量不断增长所带来的浏览耗时的问题有着重要的意义。视频摘要即对视频的概括,按照生成的摘要形式可以分为静态视频摘要和动态视频摘要。在实际工程应用中,静态视频摘要技术更为常用,因此本文主要研究静态视频摘要算法,旨在通过一定的技术手段去除视频中的冗余信息,并选取视频中最能代表视频内容的关键帧生成简短的摘要。本文分析了现有的视频摘要算法所存在的一些不足之处,然后提出了两种全新的基于多特征的静态视频摘要算法。(1)针对于仅仅使用全局特征无法很好地表示视频帧间的相似性和差异性的问题,本文提出了一种基于颜色特征和目标特征相融合的视频摘要算法。该算法首先提取了视频帧的颜色直方图以及目标特征并将二者进行融合,然后使用聚类算法提取视频关键帧,最终生成视频摘要。在两个通用的数据集上做了实验,结果证明该方法比先前的一些技术手段效果要好。(2)为了满足特定应用对于视频中人物表情的分析需要,本文提出了一种基于身份特征和表情特征的视频摘要算法,该算法能够生成和某一特定人物相关的基于情绪分析的视频摘要。首先通过人脸检测和人脸识别算法,筛选出包含特定人物的表情图像,然后构建了一个用于表情识别的卷积神经网络,提取表情特征。最后同样地使用聚类算法,提取视频关键帧,生成视频摘要。在自行构建的数据集中所做的实验以及实际项目中的使用效果表明该算法具有很强的竞争性。
其他文献
随着科学技术和制造工艺的不断发展进步,CMOS技术器件的特征尺寸也越来越逼近物理极限,给电路带来如短沟道效应、互连延时及寄生效应、功耗高等问题。这些问题严重制约着集成电路的进一步发展。因此,研究人员开始转向研究新型纳米技术器件以期替代传统CMOS器件。20世纪90年代提出了量子元胞自动机(Quantum-dot cellular automata,QCA),具有运算速度极快、集成度高和低功耗等优良
近年来,视频监控在构建信息化、智能化的城镇建设中起着至关重要的作用,行人重识别作为视频监控领域的关键技术,受到工业界与学术界的越来越多的关注。现有的行人重识别的工作大部分聚焦于监督学习,它们假设可以为每一对相机视图提供大量手动标记的匹配对,来学习该相机相对优化的特征表示或匹配度量函数。然而,这种规模的手动标签不仅在现实世界中收集起来成本非常昂贵,而且在许多情况下也是不可行,例如可能没有足够的训练人
随着现代物质水平的丰富,使人们对生活有了更多新的需求。用户不仅满足于产品可以完成某项特定功能,而是对产品有了更高的期待。产品在满足用户基本生理需求和安全需求的基础上,更加追求来自社会中的情感需求,因此情感化设计逐渐成为设计师的关注点。设计师希望通过情感化设计让用户感受到产品的温馨,为用户在使用产品时打造良好的情感体验,同时也能让用户更深刻地理解产品的价值。情感化设计离不开用户的心智,在用户心智与产
在我国城市养老问题日趋严重的背景下,在城市老城区养老院项目的设计前期进行科学合理的选址可以降低后期项目设计、施工、运营的难度,促进养老资源的合理配置。然而,老城区养老需求条件的复杂性、选址影响因素的多样性、选址规划方法的主观性等问题的存在导致养老院选址规划的科学性与准确性较低,一定程度上造成了养老资源的浪费。因此,笔者以提升老城区养老院项目选址规划的科学性为切入点,以Arcgis空间分析系统作为技
随着北斗系统导航定位技术的发展和在各个行业的应用,其对定位解算的精度要求也越来越高,因此如何提高定位精度成为学者和工程人员们研究的热点。伪距定位作为基本定位方法,在民用导航和高精度定位初始位置确定方面发挥重要作用。多路径效应作为影响定位精度的主要因素之一,在城市楼宇密集的地方不易削弱且严重的影响着定位精度。故而针对伪距定位和多路径误差这两个方面,本文主要的研究内容如下:(1)着重分析了导航定位前期
对海量的能耗供给数据进行可视化可以实现对能源供给设备实时产生的能耗数据的各种属性以图形化的方式直观的呈现给用户,为能耗供给数据可视化分析提供有力的保障。随着智慧城市的发展,供给数据变得日益复杂,基于能耗供给数据展示供给的态势信息以及监控数据异常是维护供给过程安全稳定的主要任务。针对现有的可视化系统不能很好的展示供给线路和多维层次信息,本文首先总结了时空数据和能耗供给的可视化技术,然后提出了基于多维
激光雷达是探测大气的一种有效手段,常应用于探测大气气溶胶分布、空气污染物分布、大气成分组成、大气气象参数等场景。激光雷达具有实时性好、时空分辨率高、重复性好等突出优点。为了提升激光雷达的移动性,增加探测范围,车载扫描激光雷达得到更多的重视。根据实际项目需求,本文以某车载大口径扫描激光雷达收发装置的研制为研究内容,论述了该系统的设计理论、设计模型和装调结果。该车载大口径扫描激光雷达收发装置光学系统由
大量的人类知识是以非结构化自然语言文本的形式传递的,因此使机器能够阅读和理解文本具有重要的意义。近年来,随着许多该领域数据集的涌现以及深度学习的进步,机器阅读理解在自然语言处理领域受到了广泛的关注。本文专注于研究基于语境化词嵌入与注意力方法的机器阅读理解模型,探索如何解决许多基线模型存在的准确度不足以及训练和推理速度缓慢的问题,主要研究成果如下:(1)部分经典基线模型无法有效结合上下文信息进行进一
人类自身所发出的声音与其面部图像之间存在着复杂的关联性,并且可从声音信号中推断出与该说话者面部有关的静态属性信息和动态变化信息。语音驱动人脸生成的任务正是挖掘语音信号与面部图像之间的静动态关联性,构建相应的视听觉跨模态图像生成模型,实现由给定的语音片段来生成静态人脸图像和动态人脸序列。现有的方法在研究静态人脸图像生成时多是利用时序对齐的视听觉数据集来实现身份一致的人脸生成,但是在实际测试过程中由于
异常检测作为计算机视觉中的一个重要分支,广泛地应用于公共安全、欺骗检测、视频监控等领域中。“异常”数据根据实际情况的变化而有所不同,本文中的异常主要是指预期以外的事件,通常伴随图像模糊、颜色失真、光流突变等。受制于异常数据量较少且分布广泛、标记数据的耗时等问题,结合一分类思想的生成对抗网络模型已成为主流,本文首先介绍当前较为流行的基于重构的异常检测模型,训练时只使用正常数据进行训练,学习到正常数据