论文部分内容阅读
人类能够轻松地完成对视野中目标物体的解析,比如将目标分割出来并进行识别;但对于计算机,图像分割仍是一个具有挑战性的任务。一个重要原因是,计算机视觉模型在进行图像分割时往往只基于底层的图像数据,而很少涉及到有关于待分割目标的具体知识。事实上,无论对人类还是对计算机,目标分割与目标识别这两个任务是密切相关的:对目标的认识和有关目标的知识能够指导分割模型获得更精确的结果;反之,由于没有背景干扰,更精确的分割结果也可以提升目标识别的效果。这两个任务形成了一个“鸡生蛋-蛋生鸡”的问题。在分析了国内外相关研究领域的基础上,本论文重点研究如何在目标分割任务中引入来自目标识别任务的信息,实现两个任务的协同。本文的主要研究内容和贡献在于:
1.基于对人类视觉认知机制的模仿,我们提出了一个协同目标分割与识别任务框架,其中两个任务相互交流和促进。基于这一框架,我们以变分分割为基础,以玻尔兹曼机(RBM)为核心实现了一个协同任务模型,其中目标被表达为两个方面:形状和外观。形状用于表达目标的整体结构,而外观用于表达形状内的颜色、纹理等信息。RBM的判别功能和生成功能都被应用到协同任务中。前者用于提取目标形状的特征并完成识别任务,后者则将基于特征和识别结果,生成出参考形状来引导分割过程。目标的外观信息用于进一步约束分割结果,使得分割得到的结果与外观知识相契合。
2.由于RBM的学习和表达能力存在缺陷,我们将协同任务模型拓展到了现代深度学习方法中,用编码器与解码器分别表达判别过程和生成过程,让协同任务模型的构建更加灵活。特别地,我们使用胶囊网络来学习和表达目标先验形状知识。它能够解耦目标与干扰的特征,过滤掉干扰信息,更准确地提取到目标的形状特征。而胶囊神经元独特的设计也保证了提取到的特征中,每一维数据都具有某种特定的含义,因此能进一步增加协同任务的可解释性。
3.针对变分分割方法表达能力的缺陷,我们使用神经网络替代变分方法来自主学习和估计演化方向并完成分割。与变分方法一样,神经轮廓演化方法也允许引入先验知识来指导和约束轮廓演化,但它更加鲁棒,更能适应不同的初始轮廓,演化效率更高。我们将神经轮廓演化方法集成到基于胶囊网络的协同模型中,增强了协同任务模型对初始值的鲁棒性和执行效率。为了使得识别结果不再过分依赖于目标形状,我们在识别过程中同时使用了图像纹理信息与目标形状信息,进一步提高了协同任务模型的性能和鲁棒性。
1.基于对人类视觉认知机制的模仿,我们提出了一个协同目标分割与识别任务框架,其中两个任务相互交流和促进。基于这一框架,我们以变分分割为基础,以玻尔兹曼机(RBM)为核心实现了一个协同任务模型,其中目标被表达为两个方面:形状和外观。形状用于表达目标的整体结构,而外观用于表达形状内的颜色、纹理等信息。RBM的判别功能和生成功能都被应用到协同任务中。前者用于提取目标形状的特征并完成识别任务,后者则将基于特征和识别结果,生成出参考形状来引导分割过程。目标的外观信息用于进一步约束分割结果,使得分割得到的结果与外观知识相契合。
2.由于RBM的学习和表达能力存在缺陷,我们将协同任务模型拓展到了现代深度学习方法中,用编码器与解码器分别表达判别过程和生成过程,让协同任务模型的构建更加灵活。特别地,我们使用胶囊网络来学习和表达目标先验形状知识。它能够解耦目标与干扰的特征,过滤掉干扰信息,更准确地提取到目标的形状特征。而胶囊神经元独特的设计也保证了提取到的特征中,每一维数据都具有某种特定的含义,因此能进一步增加协同任务的可解释性。
3.针对变分分割方法表达能力的缺陷,我们使用神经网络替代变分方法来自主学习和估计演化方向并完成分割。与变分方法一样,神经轮廓演化方法也允许引入先验知识来指导和约束轮廓演化,但它更加鲁棒,更能适应不同的初始轮廓,演化效率更高。我们将神经轮廓演化方法集成到基于胶囊网络的协同模型中,增强了协同任务模型对初始值的鲁棒性和执行效率。为了使得识别结果不再过分依赖于目标形状,我们在识别过程中同时使用了图像纹理信息与目标形状信息,进一步提高了协同任务模型的性能和鲁棒性。