论文部分内容阅读
本文介绍了作者在基于内容相似性的海量音视频数据检索方面进行的研究工作。笔者按照查询数据与目标文件相似性程度的不同,将研究分为三个子课题:基于底层音视觉相同的数据检索、基于中层音视觉的检索以及基于高层语义的视觉检索。作者在每个子课题内,找到目前仍然存在的研究难点、改进现有的方法、并对克服难题做出了自己的贡献。底层音视觉检索方面,作者探索了目前少有研究者探索的无监督重复性音视频序列检索。在研究过程中,作者实现了一套无监督视频宏分割系统。中层视音觉方面,作者基于观察,加入多尺度信息并引入条件信息熵的特征选择算法改进了现有的音频声纹特征;同时,在基于传统的尺度不变性局部特征(Scale Invariance Feature Transform)和词袋模型(Bag-Of-Word)的基础上,作者提出了一个层次空间校验机制,过滤误匹配样例、提高检索准确度;再者,在音视频方面的研究积累的基础上,作者开发了一套音视频拷贝检测系统,并参加了TRECVID拷贝检测竞赛。高层语义检索方面,作者尝试克服目前研究领域存在的一个难题:“语义鸿沟”。本人利用人机交互的机制,基于随机游走算法,试着在底层视觉相似度和语义相似度之间建立连接;同时,作者也参加了TRECVID Instance Search竞赛单元,提交了交互式检索系统。最后,作者针对这三个子课题,收集了测试数据,进行充分实验。实验表明,在底层、中层音视觉检索方面,本人的改进工作、实现的系统均取得了令人满意的成果。高层语义方面,我引入的交互式检索方法的性能优于自动式检索;然而,从各个研究组织给出的检索性能看来,克服“语义鸿沟”难题仍需要我们进一步探索。