Motivation
当前最先进的机器学习(ML)和人工智能(AI)的局限性包括缺乏可解释性和可解释能力;即利用深度神经网络的经典黑盒方法无法提供模型行为的证据。
受symbol grounding problem启发,本文研究了深度学习语义分割与Emergent Language(EL)模型之间的协同作用。通过描述如何扩展黑盒语义分割以提供符号语义\((S^2)\)输出,进一步利用EL体系结构的一般属性来促进模型的解释能力。相应的句子(从分类分布中提取)是通过将符号组件集成到传统UNet-Like结构中生成的。
Methods
本文模型假定如下:
- 分割模型提供分割的输出\(x\)
- 提供词汇\(V={w_1, w_2, ..., w_{N_V}}\);句子\(S_{N_w}\)的长度\(N_w\)为一系列词组的长度\({w_1, w_2, ..., w_{N_w}}\)
- Sender agent接受分割模型的输出\(x\)并生成一个长度为\(N_w\)的句子\(S_{N_w}\)
- Receiver agent获得符号句子\(S_{N_w}\)并生成输出\(x'=Receiver(S_{N_w})\)
- 最后将\(x\)和\(x'\)混合生成最终结果
Sender and Receiver Network
Sender Network
- 将\(x\)输入到线性变换中(Linear transformation)
- 将变换后的结果输入到stacked LSTM网络中
Receiver Network
Receiver由一个标准的LSTM模型构成
- 初始状态设置为0
- 为Receiver最后一层隐藏层应用线性变换
Semantic Symbolic Segmentation
- 将输入\(x\)和\(x'\)合并(Concat)
- 应用一个卷积操作及batch normalization使得tensor具有相同维度
- 最终结果应用Sigmoid操作