论文部分内容阅读
近年来,随着信息技术的日新月异,多媒体技术正跨入沉浸式(Immersive)时代。全景视频作为重要的沉浸式媒体之一,也迎来了快速发展的阶段。基于用户每个时刻只能观看到全景视频局部的视场范围(Field of View,FoV)内容这一特殊的观看特性,产生了分视角全景视频传输方案,核心在于以高质量传输FoV内的全景内容,降低FoV区域外的内容传输质量。由于系统时延的存在,直接根据FoV反馈信息传输的分视角内容与用户实际FoV不完全匹配,用户在切换FoV时将观看到黑屏或低质量内容。因此,使发送端能够提前传输匹配用户FoV内容的FoV预测技术成为基于分视角传输的全景应用系统不可或缺的重要技术环节。基于不同分视角内容制作技术的分视角传输方案对FoV预测提出了差异化的需求,使FoV预测在直观的FoV视点预测技术之外进一步发展出针对分块全景视频传输的FoV分块预测技术。而如何在看似随机的用户观看行为中挖掘深层次的用户观看行为规律,并建立体现这些规律的预测模型,提高FoV预测准确性,成为FoV视点预测与FoV分块预测研究共同面临的挑战。本研究分别围绕全景视频FoV视点预测与FoV分块预测展开研究:第一,建立针对用户头部转动速度的FoV视点预测模型,通过隐马尔可夫模型(Hidden Markov Model,HMM)与混合高斯分布模型(Gaussian Mixed Model,GMM)建立以用户头部转动速度为观测的时序模型,以HMM的隐藏状态描述对应用户头部转动速度序列的内部模式信息。针对模型参数求解对初始值敏感的特点,本文在分析用户观看全景视频的规律的基础上设计了HMM+GMM模型的初始化过程,在定性分析中表现出优于以随机数设置模型初始值的预测性能。本文提出在确定模型参数后进一步建立HMM的隐藏状态与用户头部转动速度变化信息即用户头部转动加速度间的关联关系,并在用户观看过程中对这一关联关系进行个性化更新。基于这一关联关系建立的FoV视点预测过程能够避免直接利用HMM+GMM模型进行预测的个性化丢失问题。该预测方案在仿真实验中与其他FoV视点预测方案相比表现出预测准确性的提高。第二,针对现有利用LSTM网络预测FoV分块的方案中,输入特征数据量较大且没有充分挖掘用户观看行为规律的问题,以及模型训练目标不符合实际应用场景的问题,提出基于LSTM网络的改进FoV分块预测模型。根据用户观看行为在短时间具有强关联性的特点以及用户的观看行为内在驱动受到全景视频内容影响的特点,提出针对全景内容和用户观看行为的特征提取和处理过程。同时,提出覆盖一定时间范围内用户FoV的预测目标和训练数据标记方式。基于模型的分块级预测序列,提出重点参考预测值较高分块信息的同时结合预测结果在空间域分布信息的FoV区域划分方案。在预测准确度与F-Score性能上均实现了对现有方法的提高。