基于语义信息的视频摘要技术研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:jiaomoji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频作为当今时代承载信息的重要载体,其与人们的生产生活息息相关密不可分,规模也与日俱增。近些年来,随着移动网络与自媒体快速发展,网络上充斥着无穷无尽的视频,这些视频虽然丰富了人们社交生活,但是也确实造成了一定的负担。无论是负载这些视频还是维护,对于媒体信息产业是一种巨大的消耗。此外,在海量的视频中检索与浏览对于用户来说是一件耗时耗力的事情。因此,对视频摘要的技术需求日益加剧。本文利用深度学习的规则,就视频摘要课题展开了探索,主要工作如下:1.本文首先提出了一种基于生成对抗网络的视频摘要模型(vs GAN)。带有生成对抗网络的视频摘要方法可以通过生成对抗训练产生更现实的结果。但是,生成对抗网络对摘要视频的鉴定是针对一段完整的视频,而没有对生成视频的细节内容做出反馈,因此很难捕获序列的较小变化,这对于序列数据的优劣判断略显薄弱。因此,本文提出了一种在生成对抗网路中基于关键帧选择的视频摘要方法。具体而言,通过摘要器实现对摘要视频的生成,使用生成器对摘要视频进行特征的提取与重建,最后通过鉴别器实现对摘要视频的鉴别。鉴别过程不同于以往单单判决视频的真伪,同时还兼顾了对候选关键帧的价值判断,实现了关键帧对结果价值影响的体现。通过在公开数据集上进行实验,验证了该举措的有效性。2.在对传统以及前沿的主流算法进行研究分析时发现,大多数方法在设计思路上是殊途同归的——主要侧重于视频图像内容,而很少对视频更深层次的语义信息进一步探究。因此,本文提出了一种新型的摘要模型(Sc SUM),该网络侧重于视频语义,引入了语义描述损失函数和语义一致性损失函数,以保持原视频和摘要视频在语义空间上的一致性为目标,实现了视频摘要任务的进一步拓展。同时在面对该工作在数据内容上的缺失,本文采用了一种自我描述的行为,规避了面临的问题。最后,在标准的常规数据集上,本文对该方法进行了客观验证并评估,定性和定量表明了所提出的方法的优异效果。
其他文献
多模态数据是指同一个事物可以有多种表现形式,包括文本、图像、音频等等。同一类的多模态数据虽然表达的事物相同,但它们之间的表达形式完全不同,存在着巨大的语义鸿沟。多模态数据随着信息技术的飞速发展不断增长,在丰富人们的信息生活的同时也带来了很多问题。如何在海量且无序的多模态数据中搜索需要的信息、识别特定的数据等问题都亟待解决。多模态研究通过一定的技术手段分析和研究不同模态之间的内部联系跨越它们之间的语
目前,生物特征识别技术已经大规模应用,这对生物特征识别技术的安全性、准确性、实时性和交互性都提出了很高的要求。在基于图像或者视频的生物特征识别技术中,感兴趣区域(ROI)的准确定位和提取非常重要和关键。掌纹识别已经成为一个新兴的生物特征识别技术,受到广泛的关注,目前,掌纹识别的ROI提取主要是针对静态图像进行提取,提取算法缺乏交互性,也难以从动态视频中有效提取ROI,为解决这个问题,本文开展了深入
随着音频编辑软件的盛行,人们为了不法目的可以对音频文件进行恶意篡改,为音频的真实性检测带来严峻挑战。其中,复制粘贴篡改是音频语义篡改中最常见的篡改方式,由于其篡改片段的属性与原始音频文件极为匹配,检测难度大,已成为多媒体取证领域研究的热点之一。本文面向数字音频展开复制粘贴篡改检测与定位研究,主要工作如下:(1)提出了一种基于常数Q倒谱系数(Constant Q Cepstral Coefficie
在现代软件工程中,软件系统通常是通过选择合适的、现成可重用的构件,然后用明晰的软件体系结构组装这些构件来进行开发。这项技术由于能够显著降低软件的开发成本和时间,已在实际的软件行业得到了广泛的应用。然而,软件测试几乎要耗费软件开发资源的一半。因此,如何合理分配测试资源,以耗费尽可能少的测试资源,谋求尽可能大的软件可靠性和尽可能少的测试成本,一直是软件工程领域中的一个热点和难点问题。特别是近年来,以美
Android——作为移动设备中主流智能系统,由于系统源码的开放性以及第三方应用市场稽查力度不足,导致Android恶意软件层出不穷,对用户隐私、财产安全等诸多方面构成严重威胁。在此背景下,如何有效地检测真实场景中的Android恶意软件具有重要的理论和实际意义。近年来,研究学者们致力于Android恶意软件检测工作并取得了不错的成果,但纵观整个检测领域,仍存在两点不足:一是现有工作大多是为提升检
科技化发展使得人们的生产生活问题有了新的解决方式。然而,现实生活中仍然存在着许多因供求双方信息不对称、不透明,信息更新不及时等导致的需求匹配困难问题。区块链技术的发展为这些需求匹配问题提供了新的解决思路。区块链技术的去中心化、不可篡改,以及可追溯的特性,天然地适合于解决供求双方间的信任问题。架设于区块链之上的智能合约,也能够在满足预先设置的条件下,安全、高效地得到令需求方满意地结果。虽然研究人员已
作为新一代人机交互平台,虚拟现实聚焦身临其境的沉浸体验,强调用户连接交互深度而非广度。虚拟化身是用户在虚拟场景中所使用的虚拟形象。应用可由用户身体动作直接实时控制的三维虚拟化身(Avatar)一直被认为是实现虚拟现实深度沉浸感的重要手段。由用户身体动作直接控制虚拟化身的常用解决方案是使用动作捕捉设备实时获取人体运动,再将其转化为虚拟化身运动,从而实现对虚拟化身的控制。现如今,随着虚拟现实环境的普及
随着社交网络和移动互联网的发展,人们不再需要通过报纸、电视新闻等途径了解最新的社会事件,而是可以方便的从社交网站、移动端应用中获取。社会事件的报导也不再是记者的特权,普通的互联网用户也可随时拿出手机拍摄记录周围发生的一切社会事件,并上传分享到社交媒体网站。上传的社会事件一般既包含文本信息又包含视觉信息(图像、视频),并且会跟某些特定的主题相关。因此,从庞大的社交媒体数据中自动挖掘和分类社会事件的热
光在大气中传输时会受到大气中悬浮介质的吸收和散射作用,导致大气散射环境中成像的图像模糊不清、目标物难以辨认。图像去雾技术在目标探测与识别、道路交通监测等军事、民事活动中有着广泛的应用。针对大气散射环境中获取图像严重退化的问题,本文提出了一种基于RGB颜色空间椭球模型的去雾算法,通过在RGB颜色空间建立椭球模型描述雾天图像的像素灰度值的聚集状态,以此估计雾天图像的传输函数并复原目标图像。开展雾天图像
现如今,物联网用户需求的不断增长以及相关应用的发展,给移动设备提出了更高的计算需求、带宽需求、存储需求等。但是受到电池容量以及计算能力的限制,用户不断增长的计算需求和设备有限的资源之间的矛盾成为目前移动物联网架构发展所面临的主要问题。为了解决上述问题,移动边缘计算(Mobile Edge Computing)以及无线携能通信(Simultaneous Wireless Information an