【摘 要】
:
随着信息技术的快速发展,视频数据呈爆炸式增长,大量视频数据存在冗余和重复的信息,这使得快速获取所需信息变得更加困难。在这种情况下,视频摘要技术应运而生,它的目标是生成一个紧凑而全面的摘要,在最短的时间内为用户提供目标视频的最大信息,使得每位用户能更准确、更快的获取所需信息,提高用户获取所需信息的效率和增强检索体验。本文对于视频摘要,分别基于深度注意力模型和强化学习展开研究。首先针对现有的视频摘要算
论文部分内容阅读
随着信息技术的快速发展,视频数据呈爆炸式增长,大量视频数据存在冗余和重复的信息,这使得快速获取所需信息变得更加困难。在这种情况下,视频摘要技术应运而生,它的目标是生成一个紧凑而全面的摘要,在最短的时间内为用户提供目标视频的最大信息,使得每位用户能更准确、更快的获取所需信息,提高用户获取所需信息的效率和增强检索体验。本文对于视频摘要,分别基于深度注意力模型和强化学习展开研究。首先针对现有的视频摘要算法忽略原始视频与其摘要之间的内在联系,语义信息存在损失以及均方误差损失对异常值敏感等问题,提出一种深度注意和语义保持的视频摘要方法。该方法通过采用双向长短期记忆网络(Bi-LSTM)作为编码器充分获得原始视频的时序信息,在解码部分采用基于注意力的长短期记忆网络,充分探究视频摘要之间的相互联系,并引入语义保持模块最大限度地减少语义信息丢失,最后引入Huber loss减缓模型对异常值敏感的问题,从而生成富含信息的视频摘要。在基准数据集SumMe和TVSum上的大量实验验证了所提模型的有效性和可行性。其次从强化学习的角度,针对常见视频摘要算法很少同时考虑生成摘要的可代表性和多样性等问题,将视频摘要定义为连续决策过程,提出一种基于注意力的强化学习框架,并设计了一种新颖的奖励函数共同解释生成摘要的多样性和代表性。通过利用卷积神经网络和循环神经网络获得视频帧深度和时域信息,并通过基于注意力的循环神经网络探究视频帧之间的相互联系,从而得到具代表性和多样性的视频摘要。在SumMe和TVSum两个基准数据集上的大量实验验证了所提模型的有效性和可行性。
其他文献
在如今的大数据时代,文本信息错综复杂,如何在浩瀚的文本信息库中快速且准确的查询到所需要的文本为信息检索带来了挑战性难题。在选取准确的关键词和筛选限制条件问题上的困难,使得在大量文本信息中精准查找所需文本信息的任务变得枯燥乏味且费时费力。近年来,研究人员开始借助机器学习算法对文本信息进行分类从而帮助解决文本信息检索任务,但是运用机器学习算法为文本信息检索任务带来了新的挑战。首先,某个文本领域的专家可
数字图像分割技术已经在各个领域得到了广泛的应用,但是对于碑帖图像文字分割的相关研究相对较少。本文以碑帖图像作为研究对象,结合图像处理、数学形态学和深度学习技术,提出了两种可行的碑帖图像文字切割方法。第一种是基于形态学的切割方法,第二种是基于目标检测的切割方法。基于形态学的切割方法运用数字图像处理技术和数学形态学运算方法,对图像做二值化投影,根据投影图像的坐标,将图像按列切割,再采用同样的方式,对每
在海量数据的互联网时代,如何对庞大的数据进行快速、有效地分类和检索成为近年来研究的热点。传统的图像分类技术通常为了识别某个类别,首先需要获得对应类别大量带标注的训练样本,并从中抽取出部分样本构成训练集来得到相应的分类器,最后通过该分类器实现对测试样本的分类。但现实生活中,传统的图像分类技术具有一定的局限性,对于标注数据的获取需要耗费昂贵的人力和物力的代价,针对每一类的图像均收集其对应的标注也不太符
随着计算机等网络设备的广泛应用,数据量的激增,大数据量的分析已经成为了数据分析中的重要一环。而高维数据分析是大数据分析的重要组成部分。大部分的高维数据分析系统都是基于一些系统做一些数据筛选和降维等操作,他们的视图展示一般都是以量的形式来展示信息,比如散点图矩阵、平行坐标轴等。这些方法对用户的认知负担仍旧比较大。针对高维系统分析,本文提出来了散点图模式的方法进行维度的分析,结合数据筛选进行高维数据分
本文设计了一个在特定情况下需要将目标软件与授权硬件绑定的加解密方案,主要分为加密系统和解密加载系统,并在Linux和Windows平台下对该方案进行了验证。主要工作如下:(1)介绍了在Linux下主要可执行文件类型——ELF可执行文件及其加载流程;介绍了Windows下主要可执行文件类型——PE可执行文件及其加载流程。(2)在加密系统中设计了信息存储结构体,用来存储绑定的硬件信息和后续校验。针对不
立体图像的质量不仅影响着人们对立体图像的感知,而且反映了立体图像的传输、压缩等处理技术的好坏。所以有必要设计一种可靠、高效的方法来评估立体图像质量的优劣。为了使所提方法能够模拟人脑对立体图像的感知机制,论文设计了一种左右视点的融合方法,并依据融合图像提出了两种无参考立体图像的质量评价客观方法。第一,首先根据视觉特性得到融合图像,利用立体匹配算法得到视差图,将视差图和融合图像结合形成强化图像;其次,
随着企业业务系统的发展,为了提供更高的客户服务,保证用户数据安全和业务连续性,在一些重要的系统中,已经不满足于简单的本地双机热备份和容错切换。越来越多的客户提出了要求更高的系统可用性,这样才能实现真正意义上的对异地应用级容灾系统的保护。全面的异地应用级容灾保护解决方案,意味着除了业务系统要求更好的实现本地数据容错的保护外,更加需要注意的是实现本地数据的实时异地复制和实现实时业务应用管理系统(其中包
个人特征是用来衡量行为,思想和情感的习惯性模式。它因人而异,并且随着时间的推移在不同的情景下保持相对稳定。个人特征具有重要意义且有着广泛的应用,其可以应用在推荐系统,个性化聊天机器人和人力资源管理等方面。近年来,随着社交媒体与可穿戴设备的发展,越来越多有关个体的数据被获取。如何分析好并利用好这些个人数据成为了学者关注的重点。现有的研究大多都是利用监督学习的方法对有标注的数据对用户个人基本信息,行为
随着在线视频数据量的与日俱增,广大用户检索、浏览、查询以及管理视频数据都变得耗时耗力。视频摘要作为一种浓缩视频内容的关键技术,目的是提升用户浏览、查询、检索等的效率并增强用户体验。本文从信息引导的角度,分别针对单视频摘要和多视频摘要两种不同的形式展开研究。首先,针对现有基于序列模型的单视频摘要算法无法充分捕捉序列内部具有判别性的信息,不能在分布一致性上尽可能地贴合用户摘要的需求的不足,提出了一种基
强对流天气主要是指雷雨大风、冰雹和短时强降水等天气状况,是主要灾害性天气之一,强对流天气的发生对经济发展和人民的生产、生活都有很大的影响。本文基于风云四号气象卫星数据,对强对流雷暴进行识别研究。本文的主要研究内容如下:1、对2018年7月-9月的卫星数据进行预处理,获得各通道的卫星图像。卫星原始数据是以矩阵的形式存放,经过辐射定标、投影转换步骤,转换成卫星云图。另外还对雷达数据进行预处理,获得雷达