论文部分内容阅读
相机定位是三维计算机视觉的一个基本问题,其任务是根据相机拍摄的图像估计相机的姿态。它也是增强现实,人机交互,视觉伺服,视觉导航等诸多应用的核心技术,一直都受到视觉界研究者们的广泛关注。相机定位的外延非常丰富,三维视觉领域很多研究分支本质上都是在处理这一问题,例如物体的三维跟踪(3D tracking)、同步定位与地图构建(simultaneous localization and mapping,SLAM)、基于图像的定位(image-basedlocalization)等等。本文探索了三种不同场合下的相机定位,即视频中物体的三维跟踪、室外大场景中基于图像的定位、较大场景中SLAM的重定位,针对定位的易用性、鲁棒性和速度等问题进行了研究。主要贡献如下: 构建了一个采用普通单目摄像头进行物体在线三维重建与实时三维跟踪的系统。和现有的物体三维跟踪系统不同,该系统不需要用户离线的建立三维模型,可以在简单的初始化交互之后自动的对目标物体进行重建与跟踪,使用更加灵活方便。传统的SLAM技术能对图像中的整个静止场景进行在线重建,却无法处理场景中某个特定的或运动或静止的物体。该系统对它进行了扩展,其基本思想是将SLAM与图像分割进行结合:一方面利用分割将目标物体从图像中提取出来,让重建不受背景的影响而只在物体的区域上进行;另一方面在对图像进行分割时,利用已有的重建和跟踪结果来为分割提供一些位置先验从而提高分割的精度。系统中还采用了一系列的策略来提高跟踪的稳定性和整个系统的鲁棒性。 提出了一种采用二进制特征的大场景中的相机快速定位方法。首先使用二进制特征替代现有方法中常用的SIFT特征,大大减少了特征提取的时间,然后通过对二进制特征进行有监督的索引来达到高效的近似最近邻搜索,从而为定位提供快速的二维-三维匹配。索引采用随机树的结构并利用数据库中的标签信息对随机树的节点测试进行学习,以使得落在随机树各叶节点中的数据库特征数量尽量一致并且相互匹配(具有相同标签)的特征尽量落在相同的叶节点。最后还提出了一种基于概率的优先搜索策略,通过优先搜索真实匹配最有可能落在的叶节点来进一步提高搜索的效率。在几个大场景数据集(包含数百万三维点和上千万特征)上的实验结果表明,采用提出的索引方法进行近似最近邻搜索的效率要显著高于现有的二进制特征索引方法。而整个基于二进制特征的定位方法与传统的采用SIFT特征的定位方法相比,在速度提高了接近一个数量级的同时又保持了相当的定位成功率和定位精度。 提出了一种在线学习的二进制特征索引方法并将其应用到了较大场景下的实时的SLAM重定位当中。和流行的局部性敏感哈希(locality sensitive hashing,LSH)不同,该方法中的哈希键是通过在线学习而不是纯粹的随机选择得来的。学习过程以获得大小更均匀的哈希桶和更高的哈希碰撞率为目的来构建哈希键。这使得该方法能够获得比LSH更高的近似最近邻搜索的效率。通过将在线学习的操作分散在SLAM的过程中,该方法被成功的应用到实时的SLAM重定位中。实验表明采用该方法的重定位模块能在地图中包含数万个三维点、数十万个特征的情况下实时稳定的恢复相机的姿态。