0%

【2017 TPAMI】DeepLabv2: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

Code: https://bitbucket.org/aquariusjay/deeplab-public-ver2/src/master/

Motivation

DCNN在图像语义分割中的挑战

  • 特征图的分辨率减小
  • 目标的多尺度问题
  • 由于DCNN的不变性产生的定位准确率减小问题

本文优势

  • 速度:通过空洞卷积,本文的DCNN能在Nvidia Titan X GPU上以8FPS速度运行,全连接的CRF在CPU上的推断时间为0.5秒
  • 准确率:在多个数据集上获得state-of-art结果
  • 简便性:本文系统由两个非常完善的模块组成,DCNN和CRF

Methods

Atrous Convolution for Dense Feature Extraction and Field-of-View Enlargement

卷积公式:

\[ y[i]=\sum_{k=1}^{K}{x[i+r\cdot k]w[k]} \]

Multiscale Image Representations using Atrous Spatial Pyramid Pooling

尝试从两种方法来处理语义分割中的尺度可变性:

  • 使用共享参数方式并行DCNN分支从原始图像的多个输出中提取DCNN的Score Map
  • 受R-CNN的空间金字塔启发,提出ASPP结构

Structured Prediction with Fully-Connected Conditional Random Fields for Accurate Boundary Recovery

继续DeepLab v1中的条件随机场对网络输出进行后处理。

Experiments