论文部分内容阅读
三维模型或三维物体作为三维世界的基本元素,在人类感知世界、认识世界的过程中扮演着必不可少的角色。随着计算机技术的发展,如何让计算机感知和理解三维物体的形状,自然而然地成为学术界、工业界长期关注的热点问题。为了实现这个目标,各种计算机视觉任务被提出来,比如三维场景分割、三维物体检测等等。其中三维模型检索旨在根据给定的三维模型从数据库中检索出具有相同语义内容(比如类别)的三维模型,无疑是最重要的任务之一。它不仅是三维模型搜索引擎的直接技术支撑,而且在自动驾驶、虚拟/增强现实、3D打印以及医学等领域具有广阔的应用前景和实用价值。
本论文在最新的深度学习算法基础上,重点研究如何进一步提升基于多视图的三维模型检索性能。本文取得的研究成果如下:
(1)提出了一种新的多视图特征聚合框架。该框架首先将每幅视图看作描述三维模型的一个“单词”,并按照n-gram模型的思想将多视图序列划分视图n-gram,然后在每个视图n-gram上进行运算,最后采用注意力模块对增强后特征进行融合。由于不同尺度的视图n-gram可以捕获不同距离近邻视图的空间关系,该方法进一步提出融合不同尺度的视图n-gram特征。这种通过考虑局部邻近视图的空间依赖关系的特征融合方式可以获得判别性更强的特征。在没有使用度量学习损失函数(比如三元中心损失函数)的情况下,该方法在常见三维模型数据集上取得了非常有竞争力的结果。比如在ModelNet40数据集上,该方法关于mAP的指标可以达到88.9%。在ModelNet10数据集上,mAP达到92.8%。此外在大规模模型检索数据集SHREC2016上,该方法也大幅领先现有方法。
(2)提出了一种针对三维模型检索的度量学习损失函数,即三元中心损失函数。该损失函数在网络训练过程中,使得同类的三维模型深度特征在特征空间尽可能聚集分布在类别中心附近,与此同时远离其他类别对应的类别中心。该损失函数能帮助深度框架学习到更适合于三维模型检索任务的特征,并在常见的三维模型数据集(比如ModelNet40和SHREC2016)上验证了其有效性。此外本文也在基于草图的形状检索数据集上进行了相关实验,并取得卓越的性能。实验结果表明,该方法在mAP指标上领先现有的大部分方法超过5%。
(3)提出了两个重要的技术改进用以强化现有的框架(即MVCNN)学习三维模型特征的能力。该方法首先利用三维模型多视图的组相似度,使框架在特征学习的过程中避免由于池化操作造成的多视图相似度的丢失。这种组相似度学习分支的加入,可以辅助框架学习到更具判别性的全局特征。其次本文进一步改进三元中心损失函数,提出依据不同类别样本之间的可区分性,动态地调整间隔大小。这种基于自适应间隔的三元中心损失函数(AMTCL)更灵活,可以训练网络学习到判别性更强的特征空间。实验证明,这两个技术改进可以辅助MVCNN在多个三维模型检索数据集上取得领先现有大部分三维模型检索算法的性能。
(4)提出了一种基于匹配感知的多视图和点云的融合框架。该方法首先计算点云和视图的局部匹配得分,然后提出对这些匹配得分使用阈值化处理,从而保留显著的局部对应区域并实现匹配感知的特征融合,最后本文进一步将这种匹配感知的融合策略以双向和层级的方式融合点云和视图数据,产生信息含量更加丰富的特征。在常见的三维模型数据集上,本文通过大量的实验验证了这种融合策略的有效性。比如该方法在ModelNet40数据集上大幅领先已有方法,在mAP指标上达到92.9%。
综上,本文主要围绕基于多视图的三维模型检索这一课题,提出了一系列改善三维模型特征学习的方案,为后续三维模型检索研究提供了有效的支撑。本文所提出的理论、框架以及损失函数对于其他视觉问题的研究也有一定启发和指导意义。
本论文在最新的深度学习算法基础上,重点研究如何进一步提升基于多视图的三维模型检索性能。本文取得的研究成果如下:
(1)提出了一种新的多视图特征聚合框架。该框架首先将每幅视图看作描述三维模型的一个“单词”,并按照n-gram模型的思想将多视图序列划分视图n-gram,然后在每个视图n-gram上进行运算,最后采用注意力模块对增强后特征进行融合。由于不同尺度的视图n-gram可以捕获不同距离近邻视图的空间关系,该方法进一步提出融合不同尺度的视图n-gram特征。这种通过考虑局部邻近视图的空间依赖关系的特征融合方式可以获得判别性更强的特征。在没有使用度量学习损失函数(比如三元中心损失函数)的情况下,该方法在常见三维模型数据集上取得了非常有竞争力的结果。比如在ModelNet40数据集上,该方法关于mAP的指标可以达到88.9%。在ModelNet10数据集上,mAP达到92.8%。此外在大规模模型检索数据集SHREC2016上,该方法也大幅领先现有方法。
(2)提出了一种针对三维模型检索的度量学习损失函数,即三元中心损失函数。该损失函数在网络训练过程中,使得同类的三维模型深度特征在特征空间尽可能聚集分布在类别中心附近,与此同时远离其他类别对应的类别中心。该损失函数能帮助深度框架学习到更适合于三维模型检索任务的特征,并在常见的三维模型数据集(比如ModelNet40和SHREC2016)上验证了其有效性。此外本文也在基于草图的形状检索数据集上进行了相关实验,并取得卓越的性能。实验结果表明,该方法在mAP指标上领先现有的大部分方法超过5%。
(3)提出了两个重要的技术改进用以强化现有的框架(即MVCNN)学习三维模型特征的能力。该方法首先利用三维模型多视图的组相似度,使框架在特征学习的过程中避免由于池化操作造成的多视图相似度的丢失。这种组相似度学习分支的加入,可以辅助框架学习到更具判别性的全局特征。其次本文进一步改进三元中心损失函数,提出依据不同类别样本之间的可区分性,动态地调整间隔大小。这种基于自适应间隔的三元中心损失函数(AMTCL)更灵活,可以训练网络学习到判别性更强的特征空间。实验证明,这两个技术改进可以辅助MVCNN在多个三维模型检索数据集上取得领先现有大部分三维模型检索算法的性能。
(4)提出了一种基于匹配感知的多视图和点云的融合框架。该方法首先计算点云和视图的局部匹配得分,然后提出对这些匹配得分使用阈值化处理,从而保留显著的局部对应区域并实现匹配感知的特征融合,最后本文进一步将这种匹配感知的融合策略以双向和层级的方式融合点云和视图数据,产生信息含量更加丰富的特征。在常见的三维模型数据集上,本文通过大量的实验验证了这种融合策略的有效性。比如该方法在ModelNet40数据集上大幅领先已有方法,在mAP指标上达到92.9%。
综上,本文主要围绕基于多视图的三维模型检索这一课题,提出了一系列改善三维模型特征学习的方案,为后续三维模型检索研究提供了有效的支撑。本文所提出的理论、框架以及损失函数对于其他视觉问题的研究也有一定启发和指导意义。