论文部分内容阅读
随着社交媒体的快速发展,对于某一热点事件,网络中存在大量用户拍摄的与该事件相关的多摄像头视频数据。由于多摄像头视频拍摄时的时间点不同,要对其进行分析与挖掘,首先要做的就是将多摄像头视频进行全局时间线的对齐,实现多个视频按照其拍摄的时间先后播放,称为多摄像头视频时间同步。它是计算机视觉领域的关键问题,是三维重建、全景拼接、目标跟踪等任务的基础。但是由于目前社交媒体中用户拍摄的多摄像头视频内容复杂且视频质量参差不齐,导致现有的多摄像头视频时间同步方法面临很多挑战。目前的研究通过将音频模态的特征与视觉模态的特征进行有效的融合,从而在一定程度上提高多摄像头视频时间同步的准确性和鲁棒性。但是现有的基于音视频特征融合的多摄像头视频时间同步方法受限于音视频事件,对于内容复杂的多摄像头视频数据的时间同步准确率较低,而提高多摄像头视频时间同步准确率对于三维重建、全景拼接、目标跟踪等任务至关重要。本课题对社交媒体中的多摄像头视频时间同步方法进行研究,该研究课题依托于北京市教育委员会的科学研究与研究生培养共建的科研项目——基于社交感知的跨媒体数据分析与挖掘研究。针对目前多摄像头视频时间同步方法还存在的不足,以音视频特征融合为基础,对目前现有的多摄像头视频时间同步方法进行改进,提高多摄像头视频时间同步的准确性和鲁棒性。具体研究如下:(1)阐述了多摄像头视频时间同步的现状,并对现有的相关研究方法进行梳理与总结。首先阐述了多摄像头视频时间同步方法,之后根据时间同步所利用的特征进行分类,现有的多摄像头视频时间同步方法主要分为三类:基于音频特征的多摄像头视频时间同步、基于视觉特征的多摄像头视频时间同步和基于音视频特征融合的多摄像头视频时间同步。然后分别对这三类方法进行详细阐述,并分析各个方法的优缺点。最后对多摄像头视频时间同步的研究现状进行总结,分析现有研究方法存在的问题和挑战以及音视频特征融合对多摄像头视频时间同步带来的优势,并指明本论文的研究方向。(2)针对视频特征鲁棒性差以及出现多个时间同步点造成视频时间同步准确性和鲁棒性差等问题,本论文以音视频特征融合为基础,提出了融合音视频特征相似度的交叉验证多摄像头视频时间同步方法,以提高多摄像头视频时间同步的准确性和鲁棒性。该方法创新性的利用视频帧的尺度不变特征变换(Scale-invariant feature transform,SIFT)特征提取关键帧的方法提高视频特征的鲁棒性,并且在音视频特征融合方法上,将音频特征相似度与视频特征相似度进行融合,并结合视频质量与非线性融合函数来实现,使得音视频融合的方法在多摄像头视频时间同步上具有更广泛的应用,从而解决多个时间同步点的问题。在时间同步算法上,引入交叉验证的方法进行全局时间同步,进一步提高多摄像头视频时间同步的准确性和鲁棒性。通过在两个公开数据集上进行实验分析,该方法在时间同步准确率上优于现有的利用音频特征、利用视频特征和利用音视频特征融合的方法,并且在误差容限为40ms的情况下,该方法比现有研究中利用音视频特征融合的方法在时间同步准确率上提升了 14.6%,验证了该方法的有效性。(3)针对现有的时间同步方法受到异常值的影响较大这一问题,本论文在已有研究基础上提出归一化音视频特征融合的自步学习多摄像头视频时间同步的方法。该方法具体的创新点主要体现在以下两点:在音视频特征融合方法上,将我们提出的基于SIFT的改进视频特征与音频色度特征进行融合,采用聚类的方式计算音频特征相似度,并引入了归一化的处理以有效解决音视频特征融合时可能出现异常值的问题。在时间同步算法上结合了自步学习的理论,通过设计目标函数进行优化使得时间同步算法按照音视频质量对视频数据进行自动的排序学习,优先同步音视频质量较好的视频数据,以解决时间同步的准确性受异常值影响的问题,达到提高算法的准确性的目的。通过在公开数据集上进行实验分析,该方法在时间同步准确率上优于现有的利用音频特征、利用视频特征和利用音视频特征融合的方法,尤其是在数据量相对较大且异常值较为突出时,在误差容限为40ms的条件下,与现有的音视频特征融合的方法相比时间同步准确率提升了13.6%。