基于第一视角的视频摘要与描述生成方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:mabeishangdeniuzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字存储技术的发展和可穿戴设备的流行,第一视角视频数量日益增多,广泛的第一视角视频相关应用开始普及。视频摘要与视频描述作为第一视角视频理解的重要方向,在危险行为监测、行为记录与行为分析等领域有着可观的应用前景。由于可穿戴设备的长期佩戴特性,如何智能化提取第一视角长视频的视频摘要并生成方便阅读的文字描述成为了急需解决的问题,并受到了大量研究者的关注。本文研究基于第一视角的视频摘要与视频描述算法,针对日常场景构建了同步记录视频与运动传感数据的第一视角数据集,并对现有的视频摘要与视频描述相关方法进行了研究与改进。具体内容如下:本文构建了第一视角日常场景视频摘要与视频描述数据集。该数据集面向日常场景,共计同步录制9.2小时的视频与传感器数据,在基于不同标准的标注下,该数据集分为视频摘要与视频描述两个部分。总体来看,该数据集为目前质量较高的第一视角数据集,其视频质量、内容丰富程度皆较为出色,并作为本文后续算法研究的基础。本文研究了基于多感知信息和高效混合自注意力的视频摘要方法。针对第一视角视觉模态很难完整体现拍摄者自身姿态变化的问题,本文设计了多感知信息提取与融合模块,通过融合视觉与传感器特征增强输入信息的多元性。此外,本文采用基于门循环单元(Gate Recurrent Unit,GRU)的编解码框架,并设计高效混合自注意力机制,在提升模型对复杂长视频建模能力的同时降低网络计算复杂度。本文研究了基于语义信息的视频描述方法。针对视频-文本之间的跨域变换使网络出现语义偏差的问题,本文设计了语义提取模块,使用编码后的多感知特征显式提取重要语义,并将其融入语义扩展的GRU解码网络,通过融合重要语义提升网络描述生成准确率。同时本文设计了语义一致性机制,通过修正网络前后语义偏差进一步提升网络精度。本文研究了基于多重注意力机制的视频描述算法。由于视频特征蕴含重要信息的同时包含大量冗余信息,为了使网络接收到更有效的信息,本文以基于语义信息的视频描述方法为基础,设计了通道-空间注意力支路与差异注意力支路并联的注意力网络,加强了特征在通道、空间、时间维度的信息表达。同时,本文对编解码框架中的自注意力计算引入相对位置编码,使重构的编码特征具有时序逻辑。
其他文献
企业采购作为企业的生命源泉,有着重要的作用,如何提高采购质量降低采购成本一直以来都是企业关注的问题。企业为了提升企业效益,增加企业的核心竞争力,在采购管理方面做了很多研究,通过优化采购流程、提升采购人员素质等方面做出努力,但是仍然存在各种各样的问题。互联网的快速发展、平台的兴起,给企业采购带来了新的思考。同时,一场突如其来的新型冠状病毒感染肺炎疫情(以下简称“疫情”)的影响,使市场一度失灵、经济停
学位
中国的整车行业在过去几年取得了有目共睹的巨大发展。国产汽车行业的进步不只是体现在汽车的研发上,也体现在汽车软件上。随着软件项目个数指数级的增长和互联网大时代的到来,软件项目的风险管理也要与时俱进。项目风险管理的理论很成熟,但是项目风险管理工具的研究尚不多见。企业迫切需要能够落地的软件开发过程风险管理思路和工具。本文通过文献研究、案例分析等方法,阅读风险管理理论相关的文献,研究适用于汽车零部件软件项
学位
近年来,在海量数据与高性能计算硬件的推动下,基于神经网络模型的人工智能技术因具有自动提取数据特征、对不同领域任务的普适性等优点,在各个领域取得了长足的发展。特别是在各类计算机视觉任务中,相较于以往传统的人工智能技术,基于神经网络模型的人工智能技术取得了更好的性能。然而基于神经网络模型的人工智能技术在各个领域不断取得突破的同时,神经网络的鲁棒性也被发现存在不足,科研人员发现,神经网络非常容易受到虚假
学位
人类社会进入新时代后,会在对上一个时代的继承与否定过程中获得不断发展,新时代必然有着显著不同特征。我们在农业经济和工业经济之后,迎来了知识经济。知识经济环境里科技不断发展,工业物联网、工业4.0的发展战略规划不仅是技术革命,更是社会、组织、人类活动方式转变。撬动知识经济的核心、引领现代企业的竞争优势是人力资本,其中重点是拥有并承载知识的知识型员工。颠覆中国的变化在中国改革开放后开始出现,我国产学研
学位
随着我国经济地飞速发展,购物中心作为向客户提供综合性服务的场所,遍布于城市的各个角落。但是,现阶段中国购物中心行业面临着电子商务冲击、消费需求重构、同质化现象凸显、管理方式落后等一系列严峻的问题,许多购物中心开始利用信息化手段改变落后的管理方式和技术能力,以提高自身的核心竞争力,想要在下一波行业清洗之前实现转型。XHK购物中心地处区域内核心地段,周边拥有良好的资源配套,具有相对完善的业态及设施,但
学位
随着电子技术和计算机技术的迅速发展,人们广泛使用智能算法来提高生活质量。其中,第一视角的行为识别算法为智能医护、健康监护以及智能养老等领域提供了关键的技术支撑。本文针对第一视角视频人物肢体内容缺失,构建了第一视角及多传感器混合的行为识别数据集,研究了基于多传感器信息融合的行为识别方法,融合视频、加速度和角速度多传感器信息,解决了传统第一视角行为识别运动特征难以提取的问题,提升了行为识别的准确率。本
学位
随着遥感卫星技术的快速发展,遥感图像智能分析在安全防护、环境监测、军事侦察等领域有着极为重要的意义。高分辨率遥感图像语义分割是遥感图像分析的基础,然而传统的图像分割方法需要人工设计特征,精度不高且泛化能力差。随着深度学习的发展,图像语义分割任务得到了快速发展,利用深度卷积神经网络强大的特征提取能力捕获图像特征,而不再依赖人工设计提取特征的方法,大大提高了语义分割任务的性能。本文的主要研究内容包括以
学位
随着人工智能领域技术的飞速进步,计算资源有限以及计算需求激增这一矛盾成为制约人工智能技术发展的关键瓶颈。由于客观环境条件的限制,部分数据集存在着样本量较少以及缺少标签等问题,而这也将影响模型的训练时间以及最终的训练效果。迁移学习的出现为解决这一矛盾提供了一种全新的思路,即利用两个任务之间的相似性,将源域任务中的数据,特征,模型,参数等相关要素迁移到目标域任务中,从而为目标域任务提供一个更高的起点,
学位
对象解析是计算机视觉领域中的基础任务及研究热点,具有重要的理论意义和应用价值。近年来,随着深度学习技术的广泛运用,对象解析系统的性能得到大幅度的提升。然而,有限标签场景下,对象解析系统的性能会大幅下降。考虑到对象解析系统对标签的依赖会极大程度限制不同场景下对象解析系统的应用,研究如何在有限标签场景下提升对象解析系统的精度是计算机视觉应用的迫切需求。目标检测和实例分割是对象解析中的两个主要任务,因此
学位
随着全球经济和轨道交通行业的飞速发展,国内和国际轨道交通业市场竞争越发加剧。而采购是轨道交通制造企业运营的至关重要环节,运用精益管理理论去指导实际采购活动,可以维护与加强企业与主要供应商之间的长期战略合作关系,可以提高车间生产效率保证项目交付,还可以大大减少制造企业的生产与运营成本。为了提升企业经济利润,增加市场占有率,轨道交通制造企业越发认识到科学有效的采购管理的重要性。本文针对A公司采购的现状
学位