论文部分内容阅读
移动视觉搜索作为新兴的研究领域有诸多困难与挑战,如:移动端的计算能力与存储能力有限,在大规模图像搜索中面临着检索实时性和数据存储的难题;在海量图像数据库中搜索,面临搜索精度与实时性的挑战;移动互联网带宽有限、不稳定,导致图片上传延迟大的问题等等;动态图片专家组(MPEG)制定了视觉搜索紧凑描述子(CDVS)标准,旨在提供一个在图像检索应用中可交互的比特流语法。该标准在移动视觉搜索应用中描述子的紧凑性、可区分性、伸缩性和计算复杂度四个方面取得了很大的进展。CDVS检索过程有两个阶段,第一阶段:在移动端抽取并压缩图像特征生成自适应长度的CDVS比特流,经无线网络传输到服务器端;第二阶段:服务器端对接收的CDVS比特流进行解码并在数据库中检索,并返回检索结果。服务器端在数据库中检索步骤包括两步:第一步:对比特流中的全局描述子进行解码,并在数据库中进行最近邻搜索获得候选图片集;第二步:对比特流中的局部描述子进行解码,之后在候选集中对局部描述子进行几何一致性检验,将候选集中图片重新排序从而获得精确的匹配。 本文以MPEG CDVS技术框架为基础,针对全局描述子聚合算法进行了重点研究,取得了如下的创新成果: 1.提出一种基于连续受限玻尔兹曼机(CRBM)的局部特征降维方法。在CDVS全局特征聚合算法中使用主成分分析(PCA)对局部特征(SIFT)进行降维。但是SIFT和Fisher vector是非高斯统计数据,使用线性降维算法PCA对特征表征有很大损伤。在实验部分中证明基于CRBM的算法对局部特征降维比PCA更有效。 2.提出一种基于学习的网络NetFisher聚合Fisher Vector特征。传统FisherVector使用EM算法计算高斯混合模型参数。但是EM算法容易陷入局部最优而影响聚合特征效果。本方法提出的框架结构利用反向传播算法学习Fisher layer参数,获得更高效更鲁棒的Fisher Vector。