论文部分内容阅读
近年来随着计算机图形学的迅速发展,三维形状的理解已经成为了一个极具潜力的研究课题。本篇论文主要讨论如何设计不同的智能算法来对三维形状进行分析和生成。为了有效的完成以上任务,关键的一步是提取三维模型的特征表示。然而传统的研究方法仍然依赖专业研究人员的个人经验和知识,这类方法适用于单个或小规模的三维模型数据集。随着信息时代的来临,我们所面临或需要理解的三维模型数目已经翻了几个数量级。这一显著的变化促使我们从数据驱动的角度去重新定义与三维形状理解相关的算法。在过去的几年里,深度学习已经成为计算机视觉领域一个不可或缺的方法。通过探索大量的二维图片数据集(如Image Net),深度学习在二维图片理解这一问题上展现出了比传统非学习方法更优的性能。因此,受启发于深度学习技术在二维图片理解上的成功应用,本文致力于设计新的算法和框架将深度学习网络应用到不同的三维形状理解任务上。目前对三维形状理解的研究包括以下三个方面:三维模型的描述、三维模型的分析、三维模型的生成。三维模型的分析和生成是三维形状理解的主要手段,而三维模型描述又是三维形状分析和生成的基础。其中,常见的三维形状分析任务包括三维模型对应、三维模型分割、三维模型检索。本文以三维形状理解为核心,借助深度学习网络,对三维形状的描述、分析、生成进行了探索。以下是本文的主要贡献:1.针对三维形状的描述问题,提出了一种基于三元组卷积神经网络学习三维形状描述子的算法。在理解和分析三维模型的过程中,如何构建有效且鲁棒的三维形状描述子是关键的一步。本文设计了三元组卷积神经网络(Triplet Convolutional Neural Networks,简称Triplet CNNs)来学习三维形状的局部描述子。该网络以三维形状上每个点的多尺度手工特征作为输入,整个训练过程在三维形状点对之间对应关系的监督下完成。本文还设计了三元组损失函数,该函数可以有效地保证在学到的深度特征空间中,对应点间的欧式距离小于非对应点间的欧式距离。实验表明该方法学习到的局部形状描述子在不同的评估标准下都有较好的性能表现。2.针对三维形状的分析问题,提出了一种基于深度度量学习分析三维形状的算法。本文提出了深度度量学习框架Edge Net,用来学习三维形状的局部特征。该方法在学习到的深度特征空间中,不仅考虑了不同形状间对应点的相似性,同时也考虑了同一形状上邻接点的相似性,从而保证了学到的三维局部特征是局部结构感知的。该网络直接以三维点云的原始坐标作为输入。同时,本文还详细定义了该度量框架在不同形状分析任务中的应用算法,其中包括三维形状对应、三维形状分割、三维形状部分配准、三维形状同域检索。3.针对三维模型的跨域检索问题,提出了一种基于循环卷积神经网络跨域检索三维模型的算法。本文设计了循环卷积神经网络(Cycle Convolutional Neural Networks,简称Cycle CNNs)用于实现跨域检索三维形状和二维草图。该方法直接学习三维形状特征空间和二维图片特征空间之间的映射关系,避免了跨域检索任务中公共特征空间的显式构建。它首先使用两个不同的深度网络分别提取三维模型和二维草图的特征。然后,又设计了三项不同的损失函数,综合考虑不同特征空间下特征相似性的度量。最后,在这三项损失函数不断迭代优化的过程中,Cycle CNNs可以学习到两个特征空间之间的映射关系。基于这种学习到的映射关系,可以实现跨域检索三维模型和二维草图。4.针对三维模型的合成问题,提出了一种基于深度生成网络合成三维人体动作的算法。本文提出了一种基于稀疏多视点RGB视频的合成人体动作的深度合成框架。该方法以稀疏多视点RGB视频作为输入,输出任意新视点下的人体动作视频。该深度生成框架直接合成目标视点下的动作视频,跳过形状合成任务中的显式重建过程。该框架主要包含两个步骤:基于生成查询网络合成新视点视频,基于生成对抗网络增强合成结果的细节。上述由粗到细的合成策略,同时均衡了合成结果的精细程度和网络训练的时间复杂度。本文通过实验说明了该深度生成框架在虚拟和真实人体动作数据集上都具有很好的性能。综上所述,本文深入研究了深度学习方法在三维形状理解中的应用,并设计了一系列不同的智能算法用于三维形状描述、分析、合成。首先,在三维形状的描述方面,本文研究了基于Tripelt CNNs的三维形状描述子提取算法;其次,在三维形状的分析方面,本文探索了深度度量学习在不同三维形状分析任务上的应用,涉及到的分析任务包括模型对应、模型分割、同域模型检索;然后,在三维形状分析中的跨域模型检索方面,本文提出了Cycle CNNs,用于跨域检索二维草图和三维模型;最后,在三维形状的合成方面,本文探索了深度生成网络在人体动作合成任务上的应用。本文通过大量实验验证了以上各种算法的有效性。