【摘 要】
:
近年来,随着计算机视觉领域技术的不断突破与创新,在图像信息利用越来越多元化的背景下,视频预测成为当下深度学习研究的一个热点方向。视频预测技术以给出的图像信息为基础,通过构建一个可以精准建模视频内容和动态变化的内部表征模型预测未来视频帧,并应用于机器人、自动驾驶汽车和无人机提前决策等多个场景。针对于当前大多数视频预测技术对于时间信息提取的不足,导致连续帧出现的动作伪影以及动作模糊的难点,本文基于现实
论文部分内容阅读
近年来,随着计算机视觉领域技术的不断突破与创新,在图像信息利用越来越多元化的背景下,视频预测成为当下深度学习研究的一个热点方向。视频预测技术以给出的图像信息为基础,通过构建一个可以精准建模视频内容和动态变化的内部表征模型预测未来视频帧,并应用于机器人、自动驾驶汽车和无人机提前决策等多个场景。针对于当前大多数视频预测技术对于时间信息提取的不足,导致连续帧出现的动作伪影以及动作模糊的难点,本文基于现实的视频预测的功能需求,通过基于变分自编码器的方法,加入显式的帧间光流特征来达成更好的预测效果,改善生成质量。具体研究内容以及工作如下:首先,本文在现有图像信息提取技术的基础上,针对不同场景的图像内容设计编/解码网络,同时加入了长短跳跃连接用于建模视频预测中保持不变的静态背景。通过设计的不同编/解码网络在不同数据集上进行实验并作出横向与纵向的对比,确定分别合适不同场景与特点数据集的编/解码网络用于处理图像特征,使本文方法更加具有普遍适用性。通过更好的图像表征也提高了预测帧的生成质量。同时,本文在变分自编码器的基础之上,使用长短期记忆网络实现未来帧的预测工作,为解决视频帧中时间短而运动大的运动模糊的问题,本文将光流特征用于对图像运动信息的建模之中。为解决光流特征参与网络训练不充分的问题上,提出光流信息的直接融合方法,将光流所代表的运动信息来引导后续帧的生成,改善预测后续帧中伪影的问题。实验表明,加入该光流信息模块的模型在生成质量上得到了提高。最后,在现实工业应用中,设计并实现了熊猫短视频创作平台。在此算法基础上,本文将模型迁移至大熊猫视频预测的功能实现中,进行了熊猫数据集的设计与制作,完成了模型的训练与优化,最终实现视频预测功能。通过熊猫资源库系统的建立,用户可以获得大量的熊猫资源用于短视频生成这一功能,并且根据文娱创作的需要,在此基础功能上,提供了视频动漫化以及长时间视频预测的功能。多种应用功能的实现使得该方法在具体应用领域表现出更好的效用以及价值。
其他文献
本文以舰船、飞机等大型复杂装备电磁干扰现场检测为背景,把现场检测中的电磁干扰信号分类识别作为研究课题。针对大型装备面临的电磁干扰现场检测与故障模块查找问题,设计了一套EMI信号分类识别系统,构建大型装备电磁干扰现场检测案例库,进行EMI信号采集与特征分析、故障模块定位。首先,介绍了该系统应用场景、技术指标和软硬件构成,对系统中涉及的虚拟暗室、特征提取、模板匹配等相关技术进行了分析。其次,针对系统中
基于参量阵原理的屏幕定向扬声器是一种能够同时呈现画面和产生高度指向性可听声的新型屏幕扬声器,它利用超声波在介质中自解调产生定向可听声。由于介质的自解调过程是非线性的,受温度、湿度、信号处理算法和屏幕定向扬声器本身特性等多种因素的影响,导致屏幕定向扬声器解调出的可听声存在失真,对设备的音质有较大影响,因此本论文主要围绕屏幕定向扬声器的谐波失真进行研究,为便携式设备的屏幕定向扬声器实现高保真音质提供一
随着人机对话技术的不断发展,各种各样的智能对话系统层出不穷,如:领域问答系统、闲聊机器人、终端导航机器人等智能产品,很大程度上方便了人们的日常生活。在各种类型的对话系统中,任务型对话系统是一个重要分支,主要通过多轮交互解决用户在某个领域遇到的问题,提高业务办理效率,减少人工参与。本文针对金融领域任务型对话系统的用户意图识别进行研究,包含领域分词优化、对话意图识别以及融合意图识别的智能对话系统的设计
矩阵积和式是一种常用的矩阵不变量,在组合计数、统计检验、无线通讯、统计物理、分子化学等领域有重要的应用。积和式的定义与行列式相似,但是它的计算复杂性远远高于行列式。英国理论计算机科学家Valiant在1979年证明积和式计算是组合计数中的#P完全问题,即其难度不低于组合优化中的NP完全问题。迄今为止,对一般矩阵最为有效的积和式精确算法是Ryser基于容斥原理所建立,其计算复杂性为O(n2n-1)。
随着互联网时代的到来与发展,为大数据、云计算、人工智能等新兴技术提供了肥沃的土壤,同时也为各行各业带来了新的变革与推动。教育作为民族振兴、社会进步的基石,一直是我国优先、重点发展的行业。长期以来,我国教育面临的突出矛盾是人们对高质量个性化教育服务的迫切需求与优质教育资源供给的严重不足,针对教育资源供给侧的创新和个性化教育服务新模式的探索是当前教育改革与发展所面临的重大课题。本文搭建支持矩阵自动推理
语义匹配技术备受关注,成为了当前自然语言处理技术应用领域热点话题之一,在问答系统以及信息检索等领域拥有着广泛的应用场景。目前,最热门的语义匹配模型为基于BERT的微调模型,但是大多数基于BERT模型的语义匹配技术由于采用统一注意力机制,对于句式复杂的文本语义信息抽取不够充分,导致对句子语义的理解存在偏差;同时,BERT模型规模庞大,计算量着实惊人,仅仅单个样本计算一次的开销动辄上百毫秒,在严格的延
随着科技水平的进步,视频数据在人们的日常生活中占据着越来越重要的地位。视频中存在着大量的文字信息,对其进行提取有助于视频内容的审核以及视频内容归纳分类。而视频文字检测识别技术能很好的满足对于大量视频内容提取与审核等方面的需求。相比于人工,借助视频文字检测识别技术进行视频内容提取与审核等工作,能够大幅提高效率并降低人力成本。本文基于深度学习技术,对视频文字检测算法和视频文字识别算法进行了研究,设计实
对于医学图像分割任务来说,传统的手工方法依托于医生的经验知识,不仅耗时耗力而且分割精度也没有保证。而随着计算机技术的发展,依托于深度学习的自动化分割方法在各个领域显示出了自己独特的优势,于是有了将深度学习与医学图像相结合来实现自动化医学图像分割的技术。在此背景之下,本文以深度学习为工具探索生成式对抗网络在脑肿瘤分割中的应用,主要工作如下:(1)从多尺度特征的角度出发实现了一个基于并行多尺度的生成对
在当前大数据时代,大量的医学影像没有得到有效利用。而在医疗、教育以及科研等领域却亟需大量经过标注的数据,因此需要一种技术对医学影像进行标注。然而使用手动标注的方法耗时耗力且需要医学专业人士才能完成,人工智能技术的兴起为医学影像的自动标注带来了福音。传统的自动标注方法仅仅使用了图像单一模态的数据,与图像数据紧密相关的诊断报告却未得到使用。因此本文提出了一种利用跨模态方法进行医学影像自动标注的技术,重
随着医学诊疗技术的发展以及胚胎发育理论体系的完善,体外受精-胚胎移植技术在经历了四代的更迭后已然成为不孕不育等相关疾病的首选治疗方案。其中,胚胎植入前的形态学诊断是成功移植的关键,原核期胚胎特征作为诊断的首要依据更是有着严格的定义。本文通过计算机视觉技术实现胚胎特征识别算法,相较于传统识别方案,算法能够自动且有效地分割胚胎主体区域并在原核期胚胎首要特征识别中获得接近医师的精度水平。最终给用户提供一