论文部分内容阅读
互联网和现代多媒体技术的发展日新月异,数字视频服务已经融入人们的生活,成为日常不可或缺的一部分,视频的上传下载亦成为了当下获取信息的一种重要来源。海量视频产生了巨大的储存压力,合理地存储、浏览和检索这些大容量的视频数据是目前急需解决的矛盾,视频摘要技术恰好能缓解这种压力。因此,视频摘要技术已经成为计算机视觉领域非常热门的研究方向之一,广泛应用于安防工作中的各个场景和智能城市的视频数据分析等。在视频摘要生成技术研究中,关键帧的提取是核心工作之一,传统算法中只考虑了图像的颜色信息,但仅仅依靠颜色特征并不能将一幅图像的主要信息体现出来,也不能很好地降低图像噪声带来的干扰,影响了关键帧的质量,降低了视频摘要效果。为了选取具有代表性的关键帧,生成契合用户观看习惯的视频摘要,论文提出一种基于特征融合的视频摘要生成技术研究,围绕特征融合方式分别对分类和聚类方法生成的视频摘要过程展开研究。首先,论文研究了基于特征融合的分类算法在视频摘要当中的应用,提出了基于HOG-LBP(Histograms of Oriented Gradients,HOG),(Local Binary Pattern,LBP)特征和SVM(Support Vector Machines,SVM)分类器的关键帧提取方法。该方法使用SVM分类器作为分类工具,从分解到的视频序列中提取并融合形状和纹理特征,使用训练完成的SVM分类器对待检测图像进行分类,并将分类正确的帧暂定为候选关键帧,最后运用图像余弦相似度方法剔除其中的冗余帧,进一步提升关键帧的质量。实验结果表明,提出的算法在三个不同场景视频中提取关键帧的平均准确率达到94.08%,平均误差率仅为23.18%。提取到的关键帧准确率较高且内容具有代表性,效果比较好。其次,鉴于分类算法受限于训练样本的种类及数量且只能粗概分类出场景的缺点,论文分析研究了融合多个特征结合聚类算法进行视频摘要关键帧提取的方法,提出了基于特征聚类的视频摘要关键帧提取算法。首先,选取并融合颜色特征和纹理特征,并利用层次聚类算法获取初始聚类参数;然后,用K-means算法优化初始结果,选取最靠近聚类中心的帧定为关键帧;最后,以客观结合主观的方式对算法的有效性进行了评估。实验结果表明,提出的算法在四个不同视频中提取关键帧的平均精度为0.71,平均召回率为0.76,平均F-score达到0.73,并分别与目前提取关键帧的主流算法进行了分析对比。在主观分析方面,邀请的10个用户对算法生成的关键帧认可度较高,部分摘要视频能达到良好水平。最后,将不同算法提取出来的所有关键帧按照每个原始视频中出现的时间顺序依次组合起来,形成视频摘要,在系统工作界面播放,获取该段摘要的基本信息。视频摘要按照时间顺序更符合原始内容,更具有情节发展性,更契合用户的观看习惯。