基于内容的视频媒体信息检索方法及框架研究

来源 :浙江师范大学 | 被引量 : 0次 | 上传用户:delphi_quaker
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术、网络技术、音视频压缩技术以及计算机硬件技术等的高速发展,视频媒体数据的存储和传输不再是一件棘手的事情,并且数字视频也越来越广泛地融入人们的生活中。但是,视觉媒体信息膨胀带来的问题却非常严重,很多领域由于对大量的视觉信息无法有效的处理而使采集的视觉信息闲置,造成了很大的资源浪费:另外,曾经的单纯基于文本方式的传统视频信息管理系统也暴露出了很大的局限性。如何有效地组织、表达、存储和管理视频媒体数据,以及怎样对其进行快速检索与浏览等已成为视频领域内迫切的需求,于是基于内容的视频信息检索技术便应运而生。本文在深入分析基于内容的视频媒体检索技术的研究现状和可能的发展趋势的基础上,从镜头检测、语义分类、以及多模态信息融合三个方面对基于内容的视频媒体信息检索进行了分析和研究。1.在镜头检测方面,将信息熵的知识应用到视频镜头检测中,讨论了直方图熵差法在镜头检测中的应用,结合高斯模型和滑动窗口法确定自适应阈值,并使用最大熵确定分段全局最佳阈值来消除局部滑动窗口法的极大值造成的误检。直方图熵差作为镜头检测的测度可有效扩大镜头转换帧与非镜头转换帧之间的对比效果,并在验证中发现这种方法对诸如闪光灯、马赛克等干扰有很强的抑制作用,不需要额外处理。2.在语义分类方面,在基于语义监督的聚类索引基础上,讨论了基于贝叶斯的语义分类方法,首先通过语义监督对视频样本库的底层特征做层次聚类划分,直到一个层次聚类中只包含一个高层语义类别的视频镜头时,便为这个层次聚类建立索引项,进行降维,然后统计底层特征和高层语义概念的的概率联系,构造贝叶斯分类器。3.在多模态信息融合的视频检索方面,本文设计了一种基于伪反馈的多模态信息加权融合的视频检索框架,该框架首先充分考虑了文本、图像、高层语义概念等多模态特征,并分别对其建立检索模块,然后通过伪反馈的加权算法对各个基本检索模块的结果进行融合,最后通过K-means聚类方法对融合后的结果进行重排序,以得到最终与用户查询相关的排序结果。
其他文献
在人工智能的研究领域中,许多实际的应用问题,如知识表示、自动推理、机器学习、规划以及自然语言处理技术等,都具有不确定性和复杂的关系结构双重特征。统计概率方法能够有效的
Wimax(Worldwide Interoperability for Microwave Access)是一项技术先进的无线宽带网络,世界上各大IT公司都不断在研发该产品。虽然目前各大公司都已经推出了Wimax的一套完
随着万维网技术的快速发展和普及应用,多媒体已成为人们经常使用的信息载体。在万维网上除了普通文本之外,还有大量的图像、视频、音频、动画和图形等,对这些媒体类型的信息
数字化影像设备在临床的广泛应用产生了大量的医学图像数据。如何更有效地组织、管理和检索医学图像数据,让丰富的医学图像更好的为临床、科研和教学服务成为当前迫切需要解决
数字化是一场全世界范围内的产业技术革命,数字技术已经广泛渗透到社会生活的各个领域。作为数字技术重要分支的数字电视技术是继黑白电视和彩色电视后的第三代电视技术。由
全文检索是现代信息检索技术的一个非常重要的分支,它是处理非结构化数据的强大工具,也是搜索引擎的核心技术之一。本文对中文全文检索的有关技术进行了较为深入的研究。在基
随着数字多媒体技术的发展和应用及其在互联网上的广泛传播,人们越来越容易获取这些数字媒体产品。然而,便捷的网络环境也使得非法占有、复制、修改和传播未授权产品的侵权行
随着计算机的普及和网络应用的飞速发展,主机与网络安全成为人们关注的重要问题,病毒木马与杀毒软件在相互超越中不断发展。越来越多的后门程序深入到系统内核隐藏自身,在用户不
数据挖掘(Data Mining)是在海量的数据中提取隐含在其中的有用信息和知识的过程。数据聚类(Data Clustering)是其中一项重要的数据挖掘技术,是人们认识和探索事物之间内在联系
TCP SACK通过对数据包的选择确认,有效解决了在一个发送窗口中多个数据包丢失的问题,提高了TCP的性能。由于TCP SACK沿用了传统TCP的拥塞控制机制,在发生丢包后缺乏拥塞丢包和链