0%

【2020】PointRend: Image Segmentation as Rendering

Code: https://github.com/facebookresearch/detectron2/tree/master/projects/PointRend

Motivation

  • 过采样( oversample ):对于图片中低频区域( 属于同一个物体 ),没必要使用 太多的采样点,却使用太多采样点造成过采样;
  • 欠采样( undersample ) :对于图片中高频区域( 靠近物体边界 ),如果这些区域的采样过于稀疏,导致分割出的边界过于平滑,不大真实。

Method

渲染:渲染器将模型(如 3D 网格)映射到点阵图像,即像素的规则网格。

计算机图形学的思路:对图像平面中被自适应选择点的不规则子集计算出像素值。从而高效渲染出抗锯齿的高分辨率图像。

图像分割,同样可以视作底层连续实体的占用图,然后从中输出预测标签的矩形网格。类比计算机图形学的思路,使用细分策略来自适应地选择一组非均匀点,进而计算标签。

图像分割步骤

  • 使用轻量级的分割头,对每个检测到的对象(红框)进行粗略的mask预测。
  • 选择一组点(红色点),用小规模的多层感知器(MLP)为每个点进行独立预测。
  • 对这样的细分算法进行迭代,以从粗到细的方式计算mask。

PointRend模块主要由以下三部分组成:

  1. 点选择策略: 选择少数的一些点(难点)进行预测,避免在高分辨率的输出中过量的计算所有的像素;

  2. point-wise: 特征表示:提取被选择出来的点的特征,这些特征通过双线性插值计算,然后沿着通道维度编码子像素信息预测分割;

  3. point head: 小的网络,进行预测。

Point Selection

PointRend的核心思想是,在图像平面中自适应地选择预测分割标签的点。那么这些点主要分布在哪里呢?理论上讲,这些点应该在高频区域分布较广(比如说图像的边缘)。

推断:用于推断的点选择策略受到计算机图形学中自适应细分(adaptive subdivision)这一经典技术的启发。该技术通过计算与其近邻的值显著不同的位置,来高效渲染高分辨率图像(如通过光线追踪);其他位置的值则通过内插已经计算好的输出值来获得(从粗糙网格开始)。

训练:在训练过程中,PointRend 还需要选择点来构建训练 point head 所需的逐点特征。原则上,点选择策略类似于推断过程中使用的细分策略。但是,细分策略使用的顺序步骤对于利用反向传播训练神经网络不那么友好。因此,训练过程使用基于随机采样的非迭代策略。

逐点表示

PointRend通过组合低层特征 (fine-grained features) 和高层特征 (coarse prediction),在选定的点上构造逐点特征。在细粒度特征(fine-grained features)方面,为了让PointRend呈现出精细的分割细节,研究人员为CNN特征图中的每个采样点提取了特征向量。

细粒度特征虽然可以解析细节,但也存在两方面的不足:

(1)不包含特定于区域的信息,对于实例分割任务,就可能在同一点上预测出不同的标签。比如两个重叠的实例中的一点具有相同的细粒度特征,故该点只会被预测到其中一个实例中。

(2)用于细粒度特征的特征映射,可能仅包含相对较低级别的信息。受通过哪张feature map提取细粒度特征的影响,提取到的细粒度特征可能只包含low level的特征,相比之下具有更多上下文和语义信息的feature map会更有价值。

基于上述讨论,第二种特征是从网络中抽取一个粗的分割预测,比如对每个点,预测一个k维的向量用来对应表示k个类别各自的概率。这种粗预测特征,类似现有的语义分割结构,同样使用与现有模型相同的监督方式进行监督。比如对实例分割,粗预测特征可以使用Mask R-CNN输出的轻量级7*7 mask head。再比如对于语义分割,它可以是预测一个原图下采样16倍的feature map.

这就需要粗略分割预测 (coarse prediction) 来进行补充,提供更多全局背景。

这样的粗略预测类似于现有架构的输出。以实例分割为例,coarse prediction可以是Mask R-CNN中 7×7 轻量级mask head的输出。

Point Head

对于每个选定点的逐点特征表示,PointRend使用简单的多层感知器进行逐点分割预测。

多层感知器在所有点(所有区域)上共享权重。

并且,由于多层感知器会针对每个点预测分割标签,可以通过特定任务的分割损失进行训练。

参考文献

  1. PointRend: Image Segmentation as Rendering(论文解读二十四)