基于深度学习的会议视频超分辨率技术的研究与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:ppt1000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机、网络和多媒体技术飞速发展推动了视频会议的诞生,视频会议是一种高效而灵活的会议方式被广泛应用于医疗、军事、商贸等各个领域,而会议视频是视频会议这种会议方式中由会场摄像设备录制下来的视频。如今,视频会议系统正成为各行业的重要通信业务,与此同时,会议视频的视频质量也逐渐引起重视。会议视频在录制时由于网络带宽或者其他录制硬件的限制,可能无法以原生高分辨率录制会议视频,直接观看视觉效果较差,这就需要视频超分辨率技术来提升会议视频的分辨率。视频超分辨率技术是指将一段分辨率较低的视频通过某种方式转化为分辨率较高的视频。近年来,基于深度学习的视频超分辨率技术成为计算机视觉研究中的一个热点。基于深度学习的视频超分辨率技术通过学习大量组低分辨率和对应高分辨率的视频帧来建立学习模型,将低分辨率的视频帧通过学习后的模型,以此恢复帧的高频细节。但是目前为止提出视频超分辨率技术应用在会议视频上效果都不理想,由于观看会议视频时,观众的关注重点往往在人脸上,而目前提出的视频超分辨率技术在人脸的重建效果上都不好,并且视频的整体重建速度较慢。为了解决上述疑难问题,本文对会议视频超分辨率技术进行了深入研究,主要的工作包括如下:1)针对会议视频中人脸是观看者的关注重点的特点,并根据会议视频质量的需求构建了一个全卷积端到端的深度神经网络,引入了人脸精细模块来对会议视频中的人脸重建进行针对性优化。并且对网络的训练过程调优进行了研究,提出了一种训练数据增强方法,让网络能有更好的泛化能力。通过对比实验证实了本文提出的会议视频超分辨率方法的先进性,在自建的会议视频测试集上,本文提出的网络生成的超分辨率帧在客观评价指标要优于其他方法,尤其在人脸重建方面,细节更丰富。2)针对会议视频中帧与帧之间相似度较高,动作尺度小的特点,提出了一种时空互补超分辨率技术,通过使用时间超分辨率方法来生成一部分超分辨率帧。该方法复用了会议视频超分辨率网络中图像配准模块的光流预测网络,避免了网络的多次训练,使用计算代价较低的时间超分辨率方法来代替计算代价较高的空间超分辨率方法。通过进行实验,证实了在大多数会议视频中,该方法可以达到较好的效果,可以在几乎不降低会议视频的质量的前提下,大幅降低视频的整体重建时间。
其他文献
高速公路服务区一般远离城镇,产生的污水无法直接接入市政管网,需建设独立的污水处理设施。高速公路服务区污水受过往车辆、司乘人员影响,呈现水质水量冲击负荷高、氮磷含量高、碳氮比低的特性,为此本研究采用分段进水多级A/O+MBR组合工艺(简称“组合工艺”),耦合生物海绵铁填料和改性玉米芯填料强化脱氮除磷,同时考察组合工艺的抗冲击负荷能力。主要研究结果如下:构建三组分段进水两级A/O+MBR平行装置,设置
公共建筑内庭院要求创造一个面向公众服务和具有文化审美价值的庭院环境。本文研究目的是探索公共建筑内庭院设计策略以提升其使用价值,采用了文献研究、对比归纳、模拟软件分析、理论与实践结合等研究方法,以内庭院的空间诉求为切入点,统筹活动行为、景观质量、生态质量和文化表达的设计导向,兼顾公共建筑内庭院面向公众的审美标准,以人的需求为主要出发点,从景观、生态、文化及技术方面着手整合自然和人文元素。以南京六合文
在不同任务下,飞行员进行飞行操作时需要查看的界面信息也存在差异,且不同个体对信息的认知具有不同的主观感受,每个飞行员根据自己的判断观察的界面区域也不同,为了合理的设计HUD界面布局,减少实战飞行阶段的研究成本。本文主要针对不同的飞行任务,结合飞行员视知觉特征探索HUD界面布局相关规律,同时基于飞行任务与认知特征提出HUD界面布局自适应设计方法,在试验阶段进行HUD界面布局设计优化与改进,为实战中H
在传统能源日益短缺、污染问题愈发严峻的今天,线损管理在一个国家的电网节能发展中起着重要作用,同时也对电网发展规划、降损措施制定起到指导作用。随着智能电表的推广和北斗卫星导航系统的不断完善,电力大数据时代已经到来,但现有的线损数据分析和异常用电行为识别方法多基于人力,线损数据统计、用电信息采集、用户电量监测等在时效性和准确性方面存在局限性。因此,如何结合北斗卫星导航系统、大数据技术,将电力数据的实时
大学校园中心区作为大学校园的重要功能区域之一,是展现校园特色、促进师生交流的活力空间。中心区外部空间作为建筑内部教学交往空间的延伸,空间使用频率较高,其环境的热舒适性是决定使用者活动交往质量和对外部空间品质评价的重要指标之一,尤其在以夏热冬冷为主要气候特点的江南地区,通过空间环境热舒适性的提升,对改善大学校园外部空间的环境品质具有积极作用。本文以南京地区大学校园中心区空间形态为研究对象,利用城市设
目的:总结20-40岁肝癌患者术前临床资料特征,筛选影响患者术后生存时间和复发的危险因素,为20-40岁肝癌患者的临床诊疗提供循证医学依据。方法:回顾性收集2013年1月至2017年12月期间于东南大学附属中大医院、山东大学附属齐鲁医院,青岛大学医学院附属医院住院择期行肝切除术的20-40岁原发性肝癌患者的基线资料。采用Kaplan-Meier(Log-rank检验)进行生存分析和单因素分析,Co
为节省芯片功耗,大多数传感器节点芯片采用周期性休眠的工作模式,因此芯片中的部分电路需要周期性唤醒,其中包括芯片的时钟电路。晶体振荡器因为稳定的频率特性,常作为芯片的时钟源,但晶体振荡器从开始唤醒到输出稳定频率需要数百微秒的时间,这段时间内芯片处于上电等待状态。因此起振时间越长,等待状态浪费的能耗越大。为了在减少晶体振荡器起振时间的同时减小能量损耗,本文基于恒定频率注入的方法提出了自追踪能量注入的电
在图像处理技术日新月异的今天,人们对于视频图像质量提出了更高的要求,然而视频画面抖动、成像质量下降成为了用户的痛点。在科研工作领域,不稳定的视频序列影响目标跟踪和行人识别的准确率;在日常生活当中,视频抖动直接导致用户观感体验下降,所以视频稳像技术具有深刻的研究价值和广泛的应用场景。但是目前稳像技术研究面临着不少挑战,如特征跟踪算法准确率受画面亮度影响、视频局部运动干扰大、运动滤波自适应性差等,以上
很明显,光最常用于构成建筑中的固体和空隙。自建筑史开始以来,光与空间相互作用。这种相互作用反映了地理条件,社会结构,信仰,宗教,经济甚至政治所塑造的设计动态。光还用于在建筑中创造心理和生理效应。在历史上几乎所有文化中,光也被用来象征神在神圣建筑中的存在。本文提出了一种方法,可以克服纯粹限制在神圣建筑中充分采光的经典方法的局限性。第一部分提供有关不同宗教和神圣建筑以及现有文献的一般信息(第1章)。这
时间序列是常见的数据形式,例如股票价格趋势、用电数据、病人的指标数据等。时间序列聚类研究是数据挖掘中重要组成部分,备受人们关注。现实场景下的时间序列数据具有高维、高频噪声等特点,因此,无监督的时间序列聚类研究极具挑战性。现有的时间序列聚类算法大致可以分为两类:基于原始数据的方法和基于特征的方法。基于原始数据的方法思想是在原始的输入数据上,针对不同的数据场景,根据特定领域的先验知识,设计出相似性衡量