论文部分内容阅读
视频数据是缺乏文本数据里定义的有索引、摘要、关键词、标题等内容信息,其最大颗粒度是整个文件,最小颗粒度是单个帧,中间没有自然的过渡层次。按照时间顺序逐步播放的传统浏览方式,因其占用时间长,缺乏智能的内容定位,具有很差的用户体验,尤其在如今互联视频内容服务的视频分享网站中。以故事为单元的短视频备受用户喜爱,是下一代互联网视频内容的主流。为了自动从广播电视视频流中获得这样的短视频单元,本文重点研究了视频结构化分析技术,并提出了基于人脸聚类的视频结构化分析方法。与传统方法相比,本文的主要创新工作与成果如下:设计并实现了一个由镜头自动分割,关键帧提取与人脸区域检测,人脸相似度计算并无监督聚类,及利用人脸聚类结果进行视频结构化分析等模块组成的系统。该系统是视频网站后端的重要组成部分,输入整个视频文件,输出结构标签结果文件,使得网页播放器具有结构可视化效果和智能定位的快进功能。结合Gabor和SIFT两种特征作为人脸相似性测度方法,Gabor是人脸纹理特征的全局描述,SIFT是人脸的局部特征点描述。这两种特征具有互补性,有效的克服了视频图像中人脸的光照,姿态和表情问题,在LFW (Label Face in Wild)公开人脸数据集进行人脸验证(verification)进行的评测实验中,该方法取得了0.7927的平均精度。通过基于图理论的人脸聚类把具有相同语义特性的时间序列标签聚集到一起,也就使人脸图像所在镜头聚集到一起。利用同一类的镜头组在整个视频的时间轴上具有特定的时间分布特性进行主持人检测,取得很好的效果。在3个法国电视台16个视频,总共515分钟的新闻数据集上的主持人检测实验中,达到了93.205的F-Measure值的精度。