Auto Byte

Science AI

# 空间变换网络

• 参数预测：Localisation net

输入：特征图

• 坐标映射：Grid generator

可以得到输出特征图的坐标点对应的输入特征图的坐标点的位置。计算方式如下：

 ${\wr {\mathbf{l}}^{\sqrt{(\quad \blacksquare \}.8}\blacksquare \mathrm{ff}}}^{\hat{t}})=\boldsymbol{\mathcal{H}}(\zeta {^{\mathbf{f}}\boldsymbol{l}}^{\blacksquare \blacklozenge }\}=\iota \boldsymbol{\theta }(\begin{array}{c} \wr ^{.}\hat{\mathbf{I}}\\ ll\wr \boldsymbol{l}\\ \end{array}{1^{\blacksquare }})=\lfloor {^{\theta .}\hat{\hookrightarrow }^{\{\theta {2}}}^{\theta \quad \theta {1^{\blacksquare \boldsymbol{\gamma }}}\quad \boldsymbol{\theta }{13}}$  $\breve{}$  $^{.\boldsymbol{\omega }\prime }$  $\blacksquare$  $\theta$  $\ngeq$  $\blacksquare \quad \blacksquare$ \ddag  $\rceil (._{\blacksquare \oint }^{\boldsymbol{l}}$ . \textbf{t}1 $\wr$ \textbf{\textit{lt}} $\blacksquare$  $\blacksquare$  $)$ 

• 像素采集：Sampler

利用期望的插值方式来计算出对应点的灰度值。以双向性插值为例，计算公式如下：

$_{\$}^{_{.}^{\boldsymbol{W}}\mathfrak{e}\blacksquare ^{\blacksquare }}=\sum _{\blacksquare _{\mathrm{f}},}^{\prime l}\sum _{\mathfrak{m}}^{\mathrm{ll}^{\blacksquare }}\mathrm{f}_{^{\blacksquare \prime K}}^{\blacksquare \boldsymbol{\mathcal{C}}}\ \mathrm{l}\blacksquare \mathrm{l}\blacksquare \mathrm{ll}\ \mathrm{l}\times \blacksquare \hat{\blacksquare (\{}\}._{\hat{\hat{}}}^{\lfloor }\blacksquare -|\blacksquare \wr _{\mathfrak{i}}^{\blacksquare \mathbf{N}}-l'\blacksquare |)\wr \blacksquare 1\mathbf{l}^{\blacksquare }\ \mathrm{lX}(\mathfrak{l}^{|_{.}}$)$_{\hat{}\hat{}}-|\begin{array}{c}
\wr _{\int }\\
\blacksquare \\
\end{array}
$\texttt{'}\textbf{\textit{S}}$\blacksquare -'\mathfrak{f}^{|)}$ Vci为输出特征图上第c个通道某一点的灰度值， Ucnm为输入特征图上第c个通道点(n,m)的灰度。当Xsi - m或者 Ysi - n大于1时，对应的max()项将取0，也就是说，只有(Xi, Yi)周围4个点的灰度值决定目标像素点的灰度。并且当Xsi - m和Ysi - n越小，影响越大（即离点 (n,m)越近），权重越大，这和我们上面介绍双线性插值的结论是一致的。其实，这个式子等价于： $'\langle p)\sqrt{-}(\}^{\hat{}\daleth -!\blacksquare \mathbf{S}\boldsymbol{\lambda }2-}\grave{}\rangle \int ^{\{}Q\}\})+\}\hat{}\quad \blacksquare \mathbf{I}^{\blacksquare }$--$\mathrm{l}^{\blacksquare }\}(\mathbf{Z}-$\textbf{Z}$\mathrm{l}\}^{\prime \blacksquare }(\begin{array}{rcc}
_{Q},\}\rangle _{\langle }\ \mathrm{l}-\grave{\mathbf{l}\hat{}\}\}\langle \mathbf{X}2-\blacksquare } & \sqrt{} & \}Q\}\boldsymbol{\mathit{\Delta }}\rangle +(\\
\end{array}
\leftarrow \mathbf{I}^{\blacksquare }-\ \mathbf{l}\blacksquare \}\mathbf{l}\}\blacksquare $\textbf{X}--$\mathbf{Z}\}\rangle \sqrt{}\{Q^{\boldsymbol{\eta }}2\}\$ 

Jaderberg, M., Simonyan, K., & Zisserman, A. (2015). Spatial transformer networks. In Advances in neural information processing systems (pp. 2017-2025).

## 发展历史

2010年，Siddhartha Puri 开始研究神经网络的图像处理方向。

2015年，Mrinal Haloi 将STN用于信号灯的识别，这是STN的首次应用。

2016年，Xu Jia等提出了STN的分支动态过滤网络（Dynamic filter networks）。

2017年，Anil Bas等在STN的基础上提出了3D形变模型（3DMM-STN），将STN的发展从2D提升到3D。

### 主要事件

 年份 事件 相关论文/Reference 2010 Siddhartha Puri 开始研究神经网络的图像处理方向。 Puri, S. (2010). Training convolutional neural networks on graphics processing units. U.S. Patent No. 7,747,070. Washington, DC: U.S. Patent and Trademark Office. 2015 Max Jaderberg，Karen Simonyan和Andrew Zisserman 首次提出STN的概念并详细描述。 Jaderberg, M., Simonyan, K., & Zisserman, A. (2015). Spatial transformer networks. In Advances in neural information processing systems (pp. 2017-2025). 2015 Mrinal Haloi 将STN用于信号灯的识别。 Haloi, M. (2015). Traffic sign classification using deep inception based convolutional networks. arXiv preprint arXiv:1511.02992. 2016 Xu Jia等提出了STN的分支动态过滤网络 Jia, X., De Brabandere, B., Tuytelaars, T., & Gool, L. V. (2016). Dynamic filter networks. In Advances in Neural Information Processing Systems (pp. 667-675). 2017 Anil Bas等在STN的基础上提出了3D形变模型. Bas, A., Huber, P., Smith, W. A., Awais, M., & Kittler, J. (2017, August). 3d morphable models as spatial transformer networks. In Proc. ICCV Workshop on Geometry Meets Deep Learning (pp. 904-912).

## 发展分析

### 未来发展方向

STN不需要关键点的标定，能够根据分类或者其它任务自适应地将数据进行空间变换和对齐（包括平移、缩放、旋转以及其它几何变换等）。在输入数据在空间差异较大的情况下，这个网络可以加在现有的卷积网络中，提高分类的准确性。

Contributor: Tiange Wang