Code: https://bitbucket.org/aquariusjay/deeplab-public-ver2/src/master/
Motivation
DCNN在图像语义分割中的挑战
- 特征图的分辨率减小
- 目标的多尺度问题
- 由于DCNN的不变性产生的定位准确率减小问题
本文优势
- 速度:通过空洞卷积,本文的DCNN能在Nvidia Titan X GPU上以8FPS速度运行,全连接的CRF在CPU上的推断时间为0.5秒
- 准确率:在多个数据集上获得state-of-art结果
- 简便性:本文系统由两个非常完善的模块组成,DCNN和CRF
Methods
Atrous Convolution for Dense Feature Extraction and Field-of-View Enlargement
卷积公式:
\[ y[i]=\sum_{k=1}^{K}{x[i+r\cdot k]w[k]} \]
Multiscale Image Representations using Atrous Spatial Pyramid Pooling
尝试从两种方法来处理语义分割中的尺度可变性:
- 使用共享参数方式并行DCNN分支从原始图像的多个输出中提取DCNN的Score Map
- 受R-CNN的空间金字塔启发,提出ASPP结构
Structured Prediction with Fully-Connected Conditional Random Fields for Accurate Boundary Recovery
继续DeepLab v1中的条件随机场对网络输出进行后处理。