【摘 要】
:
随着计算机技术的发展,视频在互联网、广播频道和个人设备上变得无处不在。同时促进了以分析视频内容为目的的先进技术的发展,可以被广泛应用于视频检索、自动字幕以及盲人导航等领域。几十年来,视频理解一直是计算机视觉的一个基本挑战。早期的研究主要集中用一个预定义的且非常有限的一组独立的单词描述视频。由于循环神经网络(RNN)的发展,研究人员努力用完整自然的句子自动描述视频内容,这可以被视为视频理解的最终目标
论文部分内容阅读
随着计算机技术的发展,视频在互联网、广播频道和个人设备上变得无处不在。同时促进了以分析视频内容为目的的先进技术的发展,可以被广泛应用于视频检索、自动字幕以及盲人导航等领域。几十年来,视频理解一直是计算机视觉的一个基本挑战。早期的研究主要集中用一个预定义的且非常有限的一组独立的单词描述视频。由于循环神经网络(RNN)的发展,研究人员努力用完整自然的句子自动描述视频内容,这可以被视为视频理解的最终目标。视频语义描述是指根据所给视频的内容,即视频特征,生成相应的形容该视频的句子。面对海量视频信息,采用人工对所有视频进行描述显然是对人力和财力的巨大浪费。因此,自动的视频语义描述是一种必然趋势。近年来,随着深度学习的发展,通过理解视频内容对视频语义描述取得了显著的进步。目前提出的方法大多基于编码-解码框架:编码器利用卷积神经网络(CNN)为单帧图像提取特征,然后将视频的特征输入到一个RNN中对视频内容进行编码,最后解码器利用另一个RNN对视频特征进行解码,从而生成一个用自然语言描述的句子。但是由于视频中的角色、对象以及它们之间复杂的交互作用,视频语义描述仍然是一个具有挑战性的任务。因此,如何找出视觉内容的显著区域,并将其编码成丰富的特征来表达视频是非常重要的。本文提出两种视频语义描述的方法,一种在生成每个单词时都对原始特征进行聚合生成时空表示,而不是只编码一次,在解码阶段提出双层结构,利用两种损失函数进一步过滤视频中的有效视觉内容。另一种方法实现自动定位每一个视频帧中的显著性区域并且能够学习一个具有识别力的时空表示特征。
其他文献
网络数据挖掘在通信网络,交通网络和社交网络在内的许多网络中具有众多应用。网络数据的激增不仅带来了新的机遇,也带来了新的挑战。与网络挖掘有关的许多研究问题中,链接预测具有根本的重要性。预测网络中节点间的关系的问题称为链接预测。链接预测旨在基于当前观察到的链接来预测网络中丢失或未来的链接关系,进而来推断网络链接的形成过程。在社交网络中,社会联系的建立不仅取决于个人的内在兴趣,而且还取决于其邻居节点在人
在近些年中,深度卷积神经网络有了迅速的发展,它已经应用于多个领域,包括图像分类、物体检测、语义分割等等。随着在这些任务结果精度的提升,网络的结构也越来越复杂,占用空间也越来越大。然而,实际应用中,比如应用在手机等设备上,我们往往无法提供足够的计算资源和存储空间给这些重量级的网络模型。所以模型压缩成为了深度神经网络发展的一个重要研究方向,本文研究了一种名为知识蒸馏(knowledge distill
随着现代服务业的发展,服务生态系统逐渐形成并迅速发展。为了满足越来越个性化、专业化和复杂化的用户需求,往往需要多个领域服务共同合作。然而服务的来源是社会性的,这种社会性加剧了服务供给的多样性、不确定性和动态性。领域服务之间存在业务和数据等方面的不一致问题,这对领域服务的交互提出了挑战。因此有必要研究如何将领域服务进行跨界融合以满足用户需求。本文提出了一种应用于服务生态系统的Trans BC(Tra
随着深度学习在计算机视觉中取得的成功,其被广泛的应用于图像分类算法中。大多算法依赖于数量庞大的带标注训练数据,然而有的数据样本很难获得并且样本的标注也需要花费大量资源。因此为每一个待识别类收集足够多的样本并且给予样本充足的标注信息成为基于深度学习分类算法的难题。为解决这一问题,研究者们提出了零样本学习(Zero-Shot Learning)技术,这种方法借助样本的语义信息完成训练,例如标签类名的词
网络分析在实际中得到了广泛的应用。然而,现有的方法主要关注于单类型节点/边的同质网络,许多真实世界的网络由多种类型的节点和关系组成,因此同质网络分析方法不能很好地处理这种网络。此外,现有的网络分析方法往往存在计算量大的问题,需要一种低维的节点表示来提高网络分析任务的效率及效果。针对以上问题,本文围绕异质网络表示学习主要研究工作如下:首先,提出了融合key节点类结构的异质信息网络表示学习模型(KNC
随着互联网的快速发展,近年来复杂网络在推荐、城市尺度的风险评估和犯罪行为预测等研究领域受到广泛关注,在这些领域中广泛存在着二分网络,而网络表示学习是一种有效的网络分析方法,旨在将网络节点的表示映射到低维向量空间,但目前的网络表示学习方法大多针对同质网络,没有考虑二分网络的特殊性质,因此本文针对二分网络的隐含关系和拓扑结构特性提出了两个二分网络表示学习模型,具体工作如下:首先,提出了一种融合二分网络
LoRaWAN协议(Long-Range-Wide-Area-Network)是承载物联网技术实现的重要载体,随着近几年物联网技术的快速发展,物联网设备的入网安全问题受到人们广泛的关注。由于入网数据明文发送且加密密钥由用户直接保管,在发生数据泄露后,攻击者可使用恶意节点实施重放攻击来伪造数据进而破坏整个网络的正常运转。针对根密钥泄露后造成的重放攻击,本文提出了一种基于LoRaWAN入网的增强安全机
网络空间安全是当前安全领域的研究重点,其中无线网络因其开放性易受干扰性等特点,成为网络攻击的主要对象,因此,对无线网络入侵检测具有重要的意义。传统的入侵检测技术是针对无线网络中MAC层和网络层的数据信息,其基本方法是创建一个已知协议的正常行为的指纹数据库,对异常行为进行比对从而实现入侵检测。随着入侵检测需求的不断变化,当前急需能够在不依赖于具体网络协议的条件下对网络入侵行为进行识别。本文提出基于物
随着现代科技的急速发展,更加频繁的人类交互潜藏着更多的风险,因此对风险群体与个体的检测具有巨大的现实意义。利用高精度的、带有时间信息的手机信令数据构建动态网络,采用动态社团检测方法识别社团结构、演化分析、节点重要性和节点角色,可以实现城市风险管理中的风险团体识别、风险人员识别等功能。现有的动态方法在随机块模型的基础上引入转移矩阵来模拟复杂网络的动态演化,这些方法大多将社团内部的节点看作无差别的,忽
随着互联网信息技术的高速发展,基于互联网信息技术的各类产品已遍布我们的日常生活。新兴技术在带来便利的同时,也带来很多弊端。面对信息社会的大量数据与碎片化信息的冲击,如何处理好“人、互联网产品、环境”之间的复杂关系,成为了用户体验设计的关键。大多数的设计方法理论都将重点关注于用户意识层面的设计需求,却极少关注用户潜意识层面的设计需求,而用户的潜意识决定了95%的行为、决策、情绪。本文从用户潜意识层面