面向视频内容的多尺度表示与草图交互

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:feng211314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动智能设备和3G、4G移动网络的普及为人们提供了便捷的网络服务,让人们在生活中能够随时随地的拍摄、上传、浏览视频。就目前全球最大的视频网站YouTube的统计——每分钟上传到该网站的视频时长已经超过了300小时。海量的视频数据已经超出了人脑高效处理信息的能力范围,如何帮助用户快速理解视频的内容,并提高用户分析视频内容的效率,是影响视频应用的一个重要方面。  为了帮助用户快速了解视频的主要内容,研究者利用视频的视觉、语音以及文本等特征来生成静态或动态的视频摘要来展现视频的主要内容。虽然这些方法能够在一定程度上表示出视频的主要内容,但大多集中于低层特征的操作,缺乏对视频内高层语义的获取和交互,同时缺少对视频内容的关联关系的表示,不利于用户对视频内容的有效分析。  本文基于人们观看视频的认知过程,给出了一种融合认知的多尺度视频结构,并从不同的内容尺度和视角展示视频的内容及其间的关系,支持用户使用草图手势与视频内容进行交互,帮助用户快速了解视频的主要内容并对视频内容进行深入分析。本文的主要工作如下:  1.给出一种基于认知模型的视频内容多尺度结构  基于认知计算模型,分析了人在浏览视频时的认知过程,根据认知过程中的不同认知阶段所获取的不同的视频内容层次,给出了基于认知的多尺度视频内容模型,并用BNF范式给出了该模型的结构定义。  2.研究视频内容提取与表示方法  结合多尺度视频内容模型,给出了相应的计算流程,利用混合高斯模型对视频内容进行背景建模,通过连通块计算、二值图象形态学运算等处理提取出相应的前景对象。利用视觉特征来实现不同场景的同一对象的映射,构建起多尺度视频结构中的实体层信息。同时使用协同过滤算法计算对象或场景的共现率,作为具有关联关系的潜在对象推荐给用户,并由用户来决定具体的关联关系,用以构建抽象关联层的内容。使用多个视图从不同的粒度和视角来展示多尺度的视频内容。  3.针对多尺度结构的交互任务,设计了完整的交互规则和交互手势  总结了当前研究中视频内容操作的交互任务,并将这些任务总结为四类。同时针对本文给出的多尺度视频内容的用户使用场景,在分析了相应的交互任务后,给出了交互语义一致的交互规则和草图手势。  4.设计实现原型系统,并对其进行用户评估  在以上研究的基础上,设计并开发了基于草图的多尺度视频内容的表示和交互的原型系统,并通过用户评估实验,与已有的方法进行比较,证明该方法优于现有的方法。
其他文献
当今人们生活在信息时代,企业、政府和其它机构不同程度的采用了各种业务应用系统。面对这些系统中纷繁复杂的数据、“不合逻辑”的业务规则和变化莫测的用户需求,其构建需要
在软件开发中,会有多种工具被使用来辅助开发人员。服务集成的目标就是将多个工具、以及工具所提供的服务集成到同一系统中以实现特定的业务需求。在集成过程中,由于工具、服务
在嵌入式技术迅速普及的今天,Linux操作系统,由于其开放源代码、高稳定性和低成本等特性,非常适合于嵌入式系统的开发,成为了嵌入式领域里发展最快的操作系统。改进通用Linux
近年来,随着软件应用领域的扩展,软件开发中多种涉众(stakeholder)的参与已经成为一种普遍现象。由于角色和背景的差异,不同的涉众关注于软件开发的不同方面,例如过程、技术、人
电子病历系统不断发展和普及使用,产生了大量的临床医疗数据,其中包含有各类病例临床数据和描述,蕴含着大量的临床医疗知识,对医务工作者诊疗工作的进行和我国基础医疗的发展有重
在学术界、产业界和开源社区的共同推动下,云计算技术迅速发展,逐渐走向成熟,在各行各业得到了广泛的应用。越来越多的应用选择部署到云平台上,以云应用的形式为用户提供即取即用
互联网中的网页呈几何级数的增长。对搜索引擎而言,及时搜集互联网中新出现和变化的网页是核心工作之一。 本文首先总结了当前有关搜集系统主要问题的解决方法。其后主要介
随着网络规模增大、网络元素数量的日益增加以及它们之间连接关系越来越复杂,网络管理中的一个重要问题是如何把错综复杂的网络直观、形象地显示给用户。大量复杂信息方便快
数控机床是现代制造装备的核心,数控系统是数控机床的核心技术,研究和掌握这一核心技术对提高我国的制造业装备水平尤为重要。当前我国数控系统的发展趋势一方面是研制功能齐
随着信息技术的飞速发展,以多媒体通信技术为基础的流媒体技术应用越来越广泛。流媒体技术应用为网络信息交流带来革命性的变化,对人们的工作和生活产生了深远的影响。网络视频