论文部分内容阅读
随着多媒体技术以及互联网应用的迅速发展,多媒体数据量特别是视频数据量呈现爆炸式地增长,找到一种行之有效的视频检索方法越来越成为一种必须。高效的视频检索技术能够极大的帮助人们在因特网上进行数字娱乐,提高人们的生活品质。基于网页文本的检索技术目前已经比较成熟,百度和google已经提供了可靠的在线检索功能帮助人们在网络上检索相关文本内容。相对于文本而言,视频数据的组成结构比较复杂,结构上按粒度从大到小可以分为:幕,场景,镜头,帧,此外视频本身还带有图像,声音以及文本等多种特征信息,由此带来了视频分析处理本身的复杂性,如何有效的进行视频检索也成了难题。事实上通过合理的利用这些存在于视频中的各种特征信息可以有效的帮助人们进行视频检索,找到想要的内容。迄今很多视频检索方法被提出来,早期的人们通过单独利用视频中挖掘出的图像或文本等特征进行相关检索。基于文本特征的检索能够保证检索结果有较好的召回率而基于图像特征的检索对具有明显图像特征的查询主题有不错的效果;从整体来说,单一的使用某种特征方式下的检索,实际效果还不是很理想,于是人们考虑到将各种特征信息结合起来使用,利用各种特征信息不同的检索优势并且配合机器学习技术的使用以提高视频检索的性能。于是根据每种特征信息可以建立单独的子检索模块,而现阶段的很多研究着眼于如何利用机器学习技术帮助训练融合各子检索模块上。虽然人们采用了很多方法来训练学习视频检索引擎,但是当前的视频检索技术能达到的性能还不是很理想。主要原因在于没能充分的挖掘出视频中蕴含的各种信息,在这种情况下只考虑机器学习方面的研究,并不能从本质上提高视频检索的性能。我们的算法从视频内容本身出发,着眼于从视频本身挖掘出更多有用的资源信息然后将这些信息加以融合来提高视频检索的精度。只有充分的挖掘出视频本身的各种特征信息以及这些信息之间的相关联系,才能真正的提高视频检索的性能提高。考虑到充分利用视频本身蕴含的各种特征信息,本文提出了一种新的多模态检索模型,基于这个模型我们实现了相应的手动式搜索和交互式搜索的算法方案。我们以一年一度的TRECVID视频处理比赛作为我们算法的实验平台,实验结果也证明了我们算法的有效性。本文主要围绕提出的多模态检索模型做出了相关介绍,给出了详细的实验数据,并对未来视频检索的研究做出了展望。