论文部分内容阅读
移动智能设备和3G、4G移动网络的普及为人们提供了便捷的网络服务,让人们在生活中能够随时随地的拍摄、上传、浏览视频。就目前全球最大的视频网站YouTube的统计——每分钟上传到该网站的视频时长已经超过了300小时。海量的视频数据已经超出了人脑高效处理信息的能力范围,如何帮助用户快速理解视频的内容,并提高用户分析视频内容的效率,是影响视频应用的一个重要方面。 为了帮助用户快速了解视频的主要内容,研究者利用视频的视觉、语音以及文本等特征来生成静态或动态的视频摘要来展现视频的主要内容。虽然这些方法能够在一定程度上表示出视频的主要内容,但大多集中于低层特征的操作,缺乏对视频内高层语义的获取和交互,同时缺少对视频内容的关联关系的表示,不利于用户对视频内容的有效分析。 本文基于人们观看视频的认知过程,给出了一种融合认知的多尺度视频结构,并从不同的内容尺度和视角展示视频的内容及其间的关系,支持用户使用草图手势与视频内容进行交互,帮助用户快速了解视频的主要内容并对视频内容进行深入分析。本文的主要工作如下: 1.给出一种基于认知模型的视频内容多尺度结构 基于认知计算模型,分析了人在浏览视频时的认知过程,根据认知过程中的不同认知阶段所获取的不同的视频内容层次,给出了基于认知的多尺度视频内容模型,并用BNF范式给出了该模型的结构定义。 2.研究视频内容提取与表示方法 结合多尺度视频内容模型,给出了相应的计算流程,利用混合高斯模型对视频内容进行背景建模,通过连通块计算、二值图象形态学运算等处理提取出相应的前景对象。利用视觉特征来实现不同场景的同一对象的映射,构建起多尺度视频结构中的实体层信息。同时使用协同过滤算法计算对象或场景的共现率,作为具有关联关系的潜在对象推荐给用户,并由用户来决定具体的关联关系,用以构建抽象关联层的内容。使用多个视图从不同的粒度和视角来展示多尺度的视频内容。 3.针对多尺度结构的交互任务,设计了完整的交互规则和交互手势 总结了当前研究中视频内容操作的交互任务,并将这些任务总结为四类。同时针对本文给出的多尺度视频内容的用户使用场景,在分析了相应的交互任务后,给出了交互语义一致的交互规则和草图手势。 4.设计实现原型系统,并对其进行用户评估 在以上研究的基础上,设计并开发了基于草图的多尺度视频内容的表示和交互的原型系统,并通过用户评估实验,与已有的方法进行比较,证明该方法优于现有的方法。