Spatial Transformer Networks 论文笔记
简介
- Spatial Transformer Networks和BN一样相当于一个小插件,放在卷积网络中,其主要目的是对齐网络的每个输入。比如MNIST的手写数字识别,如果有一个图像中的数字有一定角度倾斜或偏移,Spatial Transformer可以对输入图像进行仿射变换,让CNN真正的输入变成对齐后的数字图像。

网络
- 网络结构如Figure2所示。比如一开始某层CNN是以U作为输入的话,添加一个Spatial Transformer,该层的输入就变成V了。Spatial Transformer由Localisation Network、grid generator和sampler三个部分组成。
- Localisation Network以特征图U为输入,输出一组参数

Spatial Transformer Networks作为深度学习中的一个组件,用于对输入图像进行对齐。通过Localisation Network预测变换参数,grid generator生成变换网格,sampler使用双线性插值进行采样,实现可微的变换过程。实验表明,STN能提高数字识别的准确性,并在无标注数据情况下自动检测图像的特定部分。

6126

被折叠的 条评论
为什么被折叠?



