论文部分内容阅读
图像表示是图像的基础,不同类型的表示以不同角度展示着图像的不同特征。例如,基于像素的表示直接地使用像素颜色、纹理或亮度对图像的每个像素进行表示,提供着图像的低层特征;而基于区域的表示则使用有意义的标签对图像的区域进行赋值,关注于图像的高层语义。某种意义上讲,图像处理和计算机视觉可以看作是对图像提取特征并将其转化为另一种图像表示的过程。
最近的深度卷积神经网络使用着不同的图像表示进行监督,学习去解决不同的视觉任务。然而,本人发现,对于密集语义预测的任务,传统的图像表示通常忽略了像素之间的空间关系,隐性地导致了结构和几何信息的丢失。在本文中,本人考虑使用一种基于像素关系的方向场表示解决上述问题。本人将传统的图像表示转化为本人提出的形式,由此约束网络直接地学习像素之间的空间关系,在特征学习的过程中强调了结构和几何信息。为了证明提出的基于像素关系的方向场表示的有效性,本人在两个视觉任务上提出了具体解决方案并进行了实验,分别是物体骨架提取和场景文字检测,两者均与图像中的结构和几何特性密切相关。
骨架是一种基于结构的物体描述子,表征着物体形状的几何和拓扑特性,展现着物体各部分的局部对称性和连通性。自然图像中的物体骨架提取任务由于物体外观和尺度的变化较大以及处理背景的复杂性而非常具有挑战性。现有的基于学习的方法将这个任务看作是像素二分类问题,本质上和基于学习的边缘检测以及语义分割方法类似。在本文中,本人充分利用基于像素关系的方向场表示,并由此提出了一种新颖的“骨架关联区域流量”,其中包含了关联区域每个像素到骨架像素的映射。相比于之前的方法,骨架关联区域流量有着两个优势:首先,它编码了骨架像素和其他语义实体,例如关联区域像素以及隐含的边缘像素的相对位置关系;其次,骨架关联区域流量是一种基于区域的方向场,能够更好地应对具有较大宽度的物体部分。本人随后展示了一种新颖的方法,称为“DeepFlux”,来准确定位物体骨架。本人在五个数据集上评价了本人的方法,一致地取得了当时最好的结果。
场景文字检测是场景文字理解的重要一步。其主要的挑战在于文字多变的尺度、长宽比,以及任意方向和形状。受深度学习最近进展的驱动,研究人员们在多方向文字检测上已经取得了非常好的性能。然而,受限于传统的文字表示(例如水平矩形框,旋转矩形框,一般四边形或二值掩膜),大多方法的性能在曲形文字检测上急剧下降。曲形文字实际上在自然场景中非常常见,因此曲形文字检测也相当重要。在本文中,本人同样充分利用基于像素关系的方向场表示,并由此提出了一种新颖的“文字方向场”,其中的方向远离最近的文字边界指向每个文字内的点。这种表示不仅编码了二值文字掩膜,也包含了结构和几何信息,可以进一步用来分开邻近的文字实例。本人随后展示了一种新颖的方法,称为“TextField”,来检测任意形状的场景文字。充分的实验结果表明,本人提出的方法在两个曲形文字数据集上大幅超过了当时最好的方法的结果,同时在两个多方向文字数据集上也取得了非常有竞争力的结果。此外,本人的方法对未见过的数据集具有较好的泛化性能。
最近的深度卷积神经网络使用着不同的图像表示进行监督,学习去解决不同的视觉任务。然而,本人发现,对于密集语义预测的任务,传统的图像表示通常忽略了像素之间的空间关系,隐性地导致了结构和几何信息的丢失。在本文中,本人考虑使用一种基于像素关系的方向场表示解决上述问题。本人将传统的图像表示转化为本人提出的形式,由此约束网络直接地学习像素之间的空间关系,在特征学习的过程中强调了结构和几何信息。为了证明提出的基于像素关系的方向场表示的有效性,本人在两个视觉任务上提出了具体解决方案并进行了实验,分别是物体骨架提取和场景文字检测,两者均与图像中的结构和几何特性密切相关。
骨架是一种基于结构的物体描述子,表征着物体形状的几何和拓扑特性,展现着物体各部分的局部对称性和连通性。自然图像中的物体骨架提取任务由于物体外观和尺度的变化较大以及处理背景的复杂性而非常具有挑战性。现有的基于学习的方法将这个任务看作是像素二分类问题,本质上和基于学习的边缘检测以及语义分割方法类似。在本文中,本人充分利用基于像素关系的方向场表示,并由此提出了一种新颖的“骨架关联区域流量”,其中包含了关联区域每个像素到骨架像素的映射。相比于之前的方法,骨架关联区域流量有着两个优势:首先,它编码了骨架像素和其他语义实体,例如关联区域像素以及隐含的边缘像素的相对位置关系;其次,骨架关联区域流量是一种基于区域的方向场,能够更好地应对具有较大宽度的物体部分。本人随后展示了一种新颖的方法,称为“DeepFlux”,来准确定位物体骨架。本人在五个数据集上评价了本人的方法,一致地取得了当时最好的结果。
场景文字检测是场景文字理解的重要一步。其主要的挑战在于文字多变的尺度、长宽比,以及任意方向和形状。受深度学习最近进展的驱动,研究人员们在多方向文字检测上已经取得了非常好的性能。然而,受限于传统的文字表示(例如水平矩形框,旋转矩形框,一般四边形或二值掩膜),大多方法的性能在曲形文字检测上急剧下降。曲形文字实际上在自然场景中非常常见,因此曲形文字检测也相当重要。在本文中,本人同样充分利用基于像素关系的方向场表示,并由此提出了一种新颖的“文字方向场”,其中的方向远离最近的文字边界指向每个文字内的点。这种表示不仅编码了二值文字掩膜,也包含了结构和几何信息,可以进一步用来分开邻近的文字实例。本人随后展示了一种新颖的方法,称为“TextField”,来检测任意形状的场景文字。充分的实验结果表明,本人提出的方法在两个曲形文字数据集上大幅超过了当时最好的方法的结果,同时在两个多方向文字数据集上也取得了非常有竞争力的结果。此外,本人的方法对未见过的数据集具有较好的泛化性能。