【摘 要】
:
可定制交互式视频是指在视频编辑和制作的过程中,可以根据不同的受众定制不同内容的交互式视频。目前,可定制交互式视频凭借其可交互、信息量大等优点拥有很大的市场需求(商品导购等)。然而,在可定制交互式视频的制作过程中,当前还面临两个主要问题:第一,对于视频目标检测,视频中经常出现如目标运动模糊、视频散焦、目标姿态奇异以及遮挡等帧图像恶化现象,传统视频目标检测算法难以在此类视频目标检测任务中达到较高的检测
论文部分内容阅读
可定制交互式视频是指在视频编辑和制作的过程中,可以根据不同的受众定制不同内容的交互式视频。目前,可定制交互式视频凭借其可交互、信息量大等优点拥有很大的市场需求(商品导购等)。然而,在可定制交互式视频的制作过程中,当前还面临两个主要问题:第一,对于视频目标检测,视频中经常出现如目标运动模糊、视频散焦、目标姿态奇异以及遮挡等帧图像恶化现象,传统视频目标检测算法难以在此类视频目标检测任务中达到较高的检测精度。第二,对于目标信息管理,视频中包含大量且结构复杂的目标信息,当前目标信息管理方法缺乏对目标信息的有效组织管理和语义关联。统一内容标签(Uniform Content Label,UCL)国家标准可以将纷繁杂乱的目标信息进行高效聚合,使得可定制交互式视频制作者能够有效地对目标信息进行组织和管理。针对以上两个问题,本文将深度学习技术应用于可定制交互式视频制作中,提出一种基于深度学习的视频目标检测算法ODV-DL(Object Detection for Video Based on Deep Learning),设计一种基于UCL的视频目标信息库ILOV_UCL(Information Library of Object in Video with UCL),并在此基础上提出一种基于UCL的视频目标信息汇聚关联方法IAAMOV_UCL(Information Aggregation Association Method of Object in Video with UCL)。本文的主要研究工作包括:(1)针对传统的视频目标检测算法检测精度较低的问题,本文提出一种基于深度学习的视频目标检测算法ODV-DL。首先将视频帧特征增强视为视频帧序列的编解码过程,利用视频帧特征增强模块提取视频中丰富的时序信息,并通过时序特征完成对视频帧图像特征的优化。然后对视频中的目标关系进行建模,构建视频目标关系提取模块,充分挖掘视频中目标之间潜在语义关系,并通过目标关系实现对候选框特征的重新编码,以此丰富候选框的特征表示。最后对编码后的特征进行分类和回归,完成对可定制交互式视频中目标的精准检测。(2)针对当前目标信息管理方法缺乏对目标信息的有效组织管理和语义关联的问题,本文借助UCL规范化信息结构的优势,设计一种基于UCL的视频目标信息库ILOV_UCL。同时,为了能够对ILOV_UCL中的目标信息进行及时更新和语义关联,本文提出一种基于UCL的视频目标信息汇聚关联方法IAAMOV_UCL。首先利用三元损失函数在一定程度上解决了视频目标检测算法在识别目标细粒度类别时的不足。然后对识别后的细粒度类别结果进行信息的定量汇聚,生成语义丰富的视频信息。最后根据视频信息,计算视频目标信息间的语义权重,充分挖掘视频目标信息间的语义关联。(3)实现了基于深度学习的可定制交互式视频制作原型系统,并通过相关实验对本文所提ODVDL算法和IAAMOV_UCL方法进行了验证,实验结果表明ODV-DL算法相比于传统的视频目标检测算法具有更高的检测精度,IAAMOV_UCL方法能够实现对目标信息的有效组织管理和语义关联。
其他文献
多标记分类研究中,一个示例(由属性/特征向量表示)会关联多个类别标记,利用多标记数据可以构造一个从示例映射到类别标记集合的分类模型,这样的学习框架适用于多义性对象建模。传统的多标记分类任务中,通常假设实例对应的标记集合是完全准确的。然而,在某些复杂场景下(如网络图片标注),与示例关联的候选标记集合往往含有噪声,需要对含噪多标记分类问题进行研究。本文针对多标记分类中噪声标记问题与多标记分类中特征构造
两阶段学习算法是将一些传统机器学习算法由原始的一步解决问题的过程拆分为两个不同的学习阶段,而问题求解的本质保持不变的学习框架。最初,两阶段学习算法的引入是用来解决核Fisher判别分析(Kernel Fisher Discriminant Analysis,KFDA)在处理高维小样本数据时所面临的病态问题。具体地,两阶段核Fisher判别分析(Two-phase Kernel Fisher Dis
在标准偏标记学习框架下,每个对象由单个特征向量进行刻画,同时与多个候选标记相关联,其中仅有一个未知的真实标记。另一方面,在真实世界问题中对象的性质往往更为复杂,每个对象拥有多源的特征表示并且未知的真实标记也并非唯一。一般而言,有效的特征表示能显著提升学习系统的泛化能力,而偏标记特征表示任务由于标记的真实信息未知而具有较高挑战性。本文针对偏标记场景下的特征表示及融合展开研究,主要包括以下两方面工作:
医学图像配准是医学图像处理研究领域的一个重要任务和技术难点,对于图像融合、检测肿瘤生长等临床工作有重要意义。图像配准旨在寻找将一幅图像映射到另一幅图像的空间变换。传统的配准方法迭代优化每一对图像的目标函数求解空间变换,存在配准时间长、计算量大的问题。近年来,随着深度学习在医学图像研究领域的广泛应用,基于深度学习的图像配准成为极具前景的研究方向。基于深度学习的有监督配准方法虽然在配准速度与精度方面都
随着网络中数据信息的快速增长,知识库的规模也与日俱增。由于知识库中数据量的庞大规模以及复杂结构的限制,普通用户很难快速有效地获取需要的信息。因此,基于知识库的问答,运用自然语言处理技术,对于用户提出的自然语言问题,自动利用知识库存储的三元组信息(即知识)进行解答,显得尤为迫切和重要。目前,基于知识库的问答研究引起了国内外学者的广泛关注。根据回答问题所需要的三元组的数量可以将知识库问答分为两类:单关
多模态知识表示学习旨在从多模态数据中学习到关于其中数据、信息或知识的低维稠密向量形式的特征表示,作为近年来人工智能研究的热点问题之一,在多模态语义检索、视觉问答(VQA)、多模态情感分析等智能场景中具有重要应用价值。虽然多模态数据能为许多任务提供比单模态数据更多和更有用的特征信息,但如何从多模态数据获得有效的表示学习结果一直是多模态知识表示学习研究的核心问题。本文首先提出了一种基于门控层级融合的多
知识图谱是人类知识的一种显式表示方式,作为近年来人工智能研究的热点领域之一,已被广泛应用于语义搜索、人机互动、辅助决策等智能应用场景。然而,在各种知识图谱驱动的应用中,往往需要借助知识图谱嵌入技术将知识图谱中的元素表示为低维稠密的向量形式,弥补显示知识表示的不足,以满足大量推理、分析和预测的需要。虽然知识图谱嵌入已有很多研究工作,但仍存在知识表示不准确和语义不够丰富的明显不足:(1)基于翻译思想或
图像描述顾名思义,即给定一张图片,算法自动生成一段描述图像内容的文本。该任务对人来说很容易,但对于机器却非常有挑战性。这需要同时用到计算机视觉技术和自然语言处理技术,来实现从图像内容理解到文本生成的转化过程。图像描述应用潜力巨大、在很多方面都很有应用价值,适用于人机交互、图片索引、智能监控、视频标注、视觉辅助等领域。近年来,Encoder-Decoder框架在基于神经网络的图像描述任务中吸引了越来
单目深度预测是计算机视觉中备受关注的研究课题,在自动驾驶、VR游戏制作、影视制作等领域具有广泛的应用价值。然而,目前该领域仍然存在较多为解决的问题,例如使用雷达激光采集深度数据的过程耗费巨大且受天气、光照等客观因素影响大;基于稀疏深度图恢复的深度信息的方法存在边缘深度不连续的问题。本文利用立体图像对进行训练,旨在提高场景深度预测网络的预测能力,对深度网络结构、双目立体匹配、视差图优化等方法进行了研
继美国、欧盟、日本之后,中国于2016年提出中国脑计划,神经性疾病的早期诊断是中国脑计划的一个重要研究方向。癫痫是由脑神经的异常放电引起的神经性疾病,其发作频率高且严重影响患者生活质量与生命安全。癫痫患者中有30%为耐药性癫痫,其治愈手段是采用外科手术来切除癫痫病灶,决定手术成功与否的关键是如何在术前评估阶段有效地识别癫痫病灶与正常功能区。在众多术前评估手段中,颅内脑电图(i EEG,intrac