论文部分内容阅读
数字图书馆和互联网等大规模信息资源库的飞速发展对视频数据的分析与检索技术提出了新的挑战。这些信息资源库具有数据容量大、数据类型丰富、非专业用户数量多等特点,这就要求视频分析与检索工具能够提供语义层次上的准确查询功能,然而,现有的视频信息检索技术无法达到这一要求。本文以数字图书馆为目标应用,对传统的视频信息分析与检索技术进行了拓展性研究,重点介绍了两项关键技术:视频的多模态融合分析和视频的语义标注与检索。这些技术对于解决数字图书馆和类似资源库中的视频信息分析与检索问题具有一定的参考价值。 本文首先介绍了研究背景,简述了现有技术与不足,并概括了本文的主要工作。 在第二章中,我们回顾了视频分析领域中最为基础的视频内容结构化、视频镜头边缘检测以及近年来成为热点的视频的多模态融合分析与视频的语义标注与检索的研究工作,包括研究路线、相关技术和典型系统。 在第三章中,我们提出了一种基于最大熵的多模态融合视频分析技术。视频蕴涵有丰富的语义信息,可以用文本、视觉和听觉等多模态特征表述。本文采用最大熵模型对视频的多模态特征进行建模,并对视频进行语义理解和故事单元切分。 在第四章中,我们提出了一种视频语义自动标注算法。人们通常使用手工方式对视频数据进行文本标注,以支持基于语义的视频管理与检索。随着视频数据库的不断增大,手工标注费时费力以及主观偏差的缺点越来越明显。在新闻类视频具有相对应的转录文本的前提下,我们结合视频的时序信息,提出了一种全新的视频语义自动标注算法,加深了对视频数据的语义理解,并改进了基于文本的视频检索的性能。 在第五章中,我们介绍了基于目前研究我们所实现的视频分析与检索系统,其中包括离线的视频融合分析系统和在线的视频语义检索系统,以及该系统在数字图书馆中的应用。 论文的最后,我们对全文作了总结,讨论了本文所述技术的应用前景和未来的研究方向。