视频融合分析与语义理解

来源 :浙江大学 | 被引量 : 0次 | 上传用户:blankduckying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数字图书馆和互联网等大规模信息资源库的飞速发展对视频数据的分析与检索技术提出了新的挑战。这些信息资源库具有数据容量大、数据类型丰富、非专业用户数量多等特点,这就要求视频分析与检索工具能够提供语义层次上的准确查询功能,然而,现有的视频信息检索技术无法达到这一要求。本文以数字图书馆为目标应用,对传统的视频信息分析与检索技术进行了拓展性研究,重点介绍了两项关键技术:视频的多模态融合分析和视频的语义标注与检索。这些技术对于解决数字图书馆和类似资源库中的视频信息分析与检索问题具有一定的参考价值。 本文首先介绍了研究背景,简述了现有技术与不足,并概括了本文的主要工作。 在第二章中,我们回顾了视频分析领域中最为基础的视频内容结构化、视频镜头边缘检测以及近年来成为热点的视频的多模态融合分析与视频的语义标注与检索的研究工作,包括研究路线、相关技术和典型系统。 在第三章中,我们提出了一种基于最大熵的多模态融合视频分析技术。视频蕴涵有丰富的语义信息,可以用文本、视觉和听觉等多模态特征表述。本文采用最大熵模型对视频的多模态特征进行建模,并对视频进行语义理解和故事单元切分。 在第四章中,我们提出了一种视频语义自动标注算法。人们通常使用手工方式对视频数据进行文本标注,以支持基于语义的视频管理与检索。随着视频数据库的不断增大,手工标注费时费力以及主观偏差的缺点越来越明显。在新闻类视频具有相对应的转录文本的前提下,我们结合视频的时序信息,提出了一种全新的视频语义自动标注算法,加深了对视频数据的语义理解,并改进了基于文本的视频检索的性能。 在第五章中,我们介绍了基于目前研究我们所实现的视频分析与检索系统,其中包括离线的视频融合分析系统和在线的视频语义检索系统,以及该系统在数字图书馆中的应用。 论文的最后,我们对全文作了总结,讨论了本文所述技术的应用前景和未来的研究方向。
其他文献
声学法炉膛温度场分布测量技术作为一种非接触式高温测量方法,其关键在于对炉膛声波飞行时间进行精确地测量。本文针对炉膛燃烧噪声环境下声波飞行时间的测量方法进行了深入地
随着软件系统规模的不断增大,系统架构日益成为影响软件系统性能的重要因素。系统架构设计的好坏很大程度上决定了一个软件系统的扩展性、可维护性、执行效能等重要指标。软件
随着Internet的普及、网络性能的改善,越来越多的企事业单位和个人借助于网络进行信息的交流和发布。尤其是近年来出现的视频会议系统,能够使用户摆脱地域限制,进行实时的语音视
在异构数据源的集成中,解决语义异构一直是一个难题。本体能够明确表示一定领域的概念和概念之间的关系,利用这一特点,基于本体的数据集成能够解决这个问题。 在基于本体
软件配置管理是一套软件开发与维护的科学管理规范,是针对软件变更的一个关键的软件支持过程。随着软件系统的日益复杂化和软件版本更新的频繁化,软件配置管理已经成为当前软
随着软件技术日新月异的发展,传统的软件模式已经不能满足用户的个性化需求了,软件即服务(SaaS)模式的出现,使用户对软件产品的需求转变为对软件服务的需求,然而随着整体应用环境和
通用串行总线USB(Universal Serial Bus)的提出最初是为了解决PC上传统总线的不足,因其速度快、支持热插拔、占用主机资源少等优点广泛应用于PC外设和移动数据交换与存储。为
Internet的飞速发展和移动计算机日益广泛的应用,推动了对移动计算机无线接入的研究,同时广大Internet用户对随时在线的要求日益增强也极大地促进了对移动IP的研究。移动IP允许
线状要素综合作为制图综合领域中最重要的研究区域,经历了几十年的发展后,仍然是专家学者们研究的热点。这一方面是由线状要素在地图要素的图形表达上的重要性决定的;另一方
安全多方计算就是:拥有秘密输入的n方,希望用各自的秘密输入共同计算一个函数。计算结束,要求每方都能接收到正确的输出(正确性),并且每方只能了解他们自己的输出,而不能了解其他