【摘 要】
:
全景视频覆盖了360°×180°范围中的场景信息,为用户提供了无死角沉浸式体验,成为目前虚拟现实视频应用的主要内容源。由于全景视频分辨率高,体积大,若直接用于传输,将给网络造成较大压力。考虑到人眼当前视口大小是有限的,为了减少网络带宽消耗,现有的方案主要是基于视口编码及传输,这种方案减少了视频传输时所占带宽,但是在用户切换视口时会带来延迟问题,影响沉浸式体验。本文提出全景视频超分辨率算法以缓解延迟
论文部分内容阅读
全景视频覆盖了360°×180°范围中的场景信息,为用户提供了无死角沉浸式体验,成为目前虚拟现实视频应用的主要内容源。由于全景视频分辨率高,体积大,若直接用于传输,将给网络造成较大压力。考虑到人眼当前视口大小是有限的,为了减少网络带宽消耗,现有的方案主要是基于视口编码及传输,这种方案减少了视频传输时所占带宽,但是在用户切换视口时会带来延迟问题,影响沉浸式体验。本文提出全景视频超分辨率算法以缓解延迟问题对沉浸式体验带来的不良影响,主要思路是:当用户所请求的视口对应的高分辨率内容还未到达时,先向用户提供超分辨率后的图像或视频,满足用户连续的沉浸式观看体验,避免延迟带来的卡顿等问题。主要研究工作如下:(1)提出一种基于最佳初始视口的全景图像超分辨率算法。首先预测出对低分辨率内容的重建最具参考性的初始视口,然后将其高分辨率版本传输到用户端,其余区域传输低分辨率码流。在用户端,首先计算低分辨率内容与当前视口之间的匹配关系,然后通过纹理迁移和生成网络,对低分辨率内容进行超分辨率重建。实验结果表明,一方面,相比其它视口,预测的初始视口与剩余区域之间的相关性更高,为后续网络提供了更多的信息;另一方面,对于纹理简单区域和纹理复杂区域,该算法均获得了较好的主观效果和较高的客观指标值。(2)利用非局部特征融合与梯度指导,提出了一种对全景图像特定区域进行超分辨率的算法。首先提出多尺度的非局部特征融合模块,用于匹配和融合来自高分辨率视口的信息。为了保留低分辨率区域的整体结构特征,在超分辨率分支的基础上,引入了梯度指导分支,进行整体优化,最后对两个分支的重建结果同时进行约束。实验结果表明,该方法重建出了更加真实的纹理细节和更加接近真实图像的边缘,重建图像的客观指标值均高于其它对比方法。(3)引入帧间相关性,提出基于Octave卷积的特征提取层,设计了一种用于全景视频特定区域的超分辨率算法。为了减少传输的数据量,提出对于视口以外的区域,传输低分辨率、低帧率版本;对于视口内的区域,传输高分辨率、高帧率版本。在客户端,使用Octave卷积提取高分辨率视口的高频信息,并与低分辨率区域的特征进行融合,得到中间帧的特征图。然后通过长短时记忆网络捕捉各帧之间的运动关系,进行特征聚合。最后通过生成网络,重建出各帧对应的高分辨率图像。实验结果表明,与其它方法相比,该方法生成了内容上更连贯的中间帧,重建出的高分辨率帧具有较好的客观质量和主观质量。
其他文献
随着近年来自助游市场的迅速发展,更多的出游者不仅是网络旅游资讯的信息接收者,同时也是网络信息的生产者和传播者。UGC(User Generate Content,用户生成内容)指的便是用户在网络上发表的文字、图片或视频等一系列信息资源。本项目的选题来自作者在某旅行APP公司所参与的实际项目,基于以上背景,公司在现有市场的基础上开始向社交领域发展,致力于打造旅行+社交的出游模式。本文的旅行APP后端
情感分析是当前自然语言处理领域中最活跃的研究方向之一。作为细粒度的分析方法,属性级情感分析可以从文本中挖掘出针对不同属性的倾向性,更好地反映情感的复杂特征。属性提取是属性级情感分析的基础工作。目前属性提取方法中属性词与上下文联系不够紧密,缺乏对全局信息的充分利用。另外,可用的数据集较少,每个数据集中包含的数据量规模较小。解决上述问题对于提升属性提取效果有积极作用。针对上述两个问题,本文以双重词嵌入
时序数据是按照时间顺序观测某个或某些物理量得到的一串值,其反映了事物属性随着时间变化的特征。时序数据压缩是一个基础且重要的工作。时序数据的压缩不但能够减少空间存储,而且降低了数据传输的成本。本文对时序数据无损压缩展开研究,设计了一种针对时间戳的无损压缩算法以及两种针对时序数据值的无损压缩算法,实现了数据信息无失真情况下的高压缩率压缩。主要工作及创新点如下:(1)提出了e-DoD时间戳压缩算法。该算
蜂窝物联网是互联网的应用拓展,也是新一代通信技术的重要组成之一。物联网、移动互联网和传统互联网每天都会产生海量数据,以满足不同类型的网络服务需求。网络的快速发展需要更低时延更高可靠性连接的支持。边缘计算的提出为网络的发展提供了良好的助力,但边缘计算节点的部署也会引发相应的部署成本的问题。因此,如何在保证网络低时延高可靠连接,并提供多样化服务的条件下,更加高效地部署边缘计算节点,降低部署成本是亟需解
基于书帖标识的图书配帖检测研究利用图像处理技术,从采集的CCD图像中,根据书脊图像中书帖标识的信息,完成检测任务。本文对提高书籍装订质量,提高生产效率和工业自动化程度具有十分重要的工程意义和理论意义。本文将基于书帖标识的图书配帖检测研究分为书帖标识检测、锁线区域分割和图书配帖匹配三个基本环节。(1)书帖标识检测。在非经典感受野机制的启发下,提出了基于三高斯模型的书帖标识检测方法。该方法本质上是一个
依存句法分析是识别句子中词与词之间的语义修饰关系并构建依存句法树的过程。依存句法树能够简洁高效的表达句子的句法结构信息,广泛应用于机器翻译、问答系统等自然语言处理任务中。在对汉语进行依存句法分析时,需要先依次进行分词和词性标注。为解决这种串行分析方式中存在的错误传播和无法共享特征的问题,研究人员提出联合三个任务同时进行分析的方案,如何同时提升三个任务的分析精度一直是汉语依存句法分析研究追求的目标。
图结构能够直观地反映样本点间的关联性,近年来,基于图结构的聚类算法得到了广泛研究。目前已提出的传统算法能较好的利用样本点的图结构信息完成聚类,并表现出卓越的性能,但是其聚类结果对图结构有极强的依赖性。随着深度学习的发展,图深度神经网络被提出,它通过捕捉样本点间的图结构关系,将邻域特征融合后作为该样本点的特征表示,使得所提特征更利于聚类。但是随着图神经网络层数的加深,学习的特征容易出现过平滑的现象,
Tor匿名通信系统具有单向匿名即客户端匿名功能,也可提供双向匿名功能即客户端与服务端同时匿名进行通信。Tor隐藏服务机制就是这种双向匿名的实现方式。隐藏服务有效保护了用户和服务方的隐私,但是也容易被滥用,导致Tor成为了毒品交易、军火买卖等非法活动的“犯罪天堂”。研究Tor隐藏服务的脆弱性,特别是对其真实物理地址的溯源工作,已经成为国内外匿名通信领域的研究热点。Tor隐藏服务基于多跳路由、流量混淆
图像显著性目标检测旨在利用计算机模拟人类的视觉认知机制,快速并准确地定位视觉场景中最具信息量的区域,同时选择性地忽略其他无关区域。该任务作为计算机视觉研究领域中的一个重要分支,广泛应用于诸如机器人识别、背景转换、三维视觉重建等实际场景中,并作为图像识别、图像分类、语义分割等视觉任务的预处理工具,有效地节省了图像处理的时间和空间成本。近年来,深度学习地快速发展使得基于神经网络的RGBD显著性目标检测
目标检测是计算机视觉的重要研究领域,用于判定输入的图像或视频是否含有物体,以及判定物体的类别和位置。近年来,随着深度学习在各个领域展露出性能优势,基于深度学习的目标检测的性能也有了突飞猛进的提升,检测速度越来越快,成为了目标检测的主要方法。因为对抗样本的存在,基于深度学习的目标检测算法的安全性备受关注。对抗样本的存在会在目标检测的应用场景中造成不可估量的后果,尤其是在军事场景中,其错误检测造成后果