论文部分内容阅读
在视频信息高速膨胀的今天,如何在海量数据中快速高效的检索有用信息,找出感兴趣的内容,并对之进行有效的利用和管理,是多媒体信息检索和人工智能领域的一大挑战,已成为最新研究热点之一。本文深入分析了特定目标视频检索的无监督搜索技术和基于语义的相关反馈及重排序技术。无监督自动检索方面,作者提取多种底层视觉特征,包括全局的颜色纹理特征和采用不同检测子提取的多种SIFT特征,提出了不同特征结果的融合方案,增强对视频视觉信息的描述能力。同时,不同于传统的词袋模型,本文采用层次聚类词汇树实现高维稀疏特征表达,建立倒排索引,利用以文档为单位的计数最小树(CMT)来进行索引合并,有效地提高了海量数据检索的精度与速度,降低了数据的存储空间。在此基础上,作者开发了一套特定目标的视频检索系统,并参加了TRECVID特定目标检测(Instance search)竞赛。基于语义的相关反馈及重排序方面,本文利用随机游走算法,在基于视觉信息的检索上加入语义信息,建立底层视觉特征相似度与人脑感知相似度之间的连接,克服“语义鸿沟”带来的不一致性。作者针对数据库特点以及应用场景的不同,将研究氛围两个子课题,基于人机交互的相关反馈研究和基于语义的在线自动重排序研究,提出了语义图模型和自动检测可信样本算法,大幅度提高检索结果的正确率。作者参加TRECVID特定目标检测的交互式检索任务,开发了在线交互式检索和在线自动重排序两套系统。本文算法在三个数据库上进行验证,分别是TRECVID INS视频数据库,Paris公开图像数据库和作者自己建立的France图像数据库。大量充分的实验证明,通过对算法的改进与整合,视频自动检索的性能大幅提升,在INS2012、2013的评测中取得优异成绩。同时,引入语义的相关反馈与重排序的性能要高于自动检索,并已达到并超越目前该领域检索性能的最新发展水平。