RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality 阅读笔记

Xiaohan Ding，Honghao Chen，Xiangyu Zhang，Jungong Han，Guiguang Ding
Beijing National Research Center for Information Science and Technology (BNRist)
School of Software, Tsinghua University, Beijing, China
Institute of Automation, Chinese Academy of Sciences
MEGVII Technology
Computer Science Department, Aberystwyth University, SY23 3FL, UK
CVPR 2022
Code

背景

卷积网络的成功中局部先验发挥着重要的作用，但是传统卷积网络无法很好的处理长距离依赖关系，只能通过加深网络结构缓解问题，而过深的网络导致最终特征图分辨率过小通道数过多反而不利于特征提取。为了解决卷积网络的长距离依赖问题，一些方法采用类似MLP的机制，因为对于全连接层（FC）来说可以获得任意两点之间的关系信息，但是MLP将特征图Flatten的做法会导致位置关系的丢失。

本文提出了RepMLPNet，其中通过Locality Injection的方法为FC引入位置信息，并且通过结构重参数化机制减少网络在推理时的参数量和计算量，增加推理速度。

Method

经过重参数化的Locality Injection

基础公式表示

对于卷积操作，有张量 $M \in R^{n \times c \times h \times w}$ ，其中 $n$ 表示batch size， $c$ 为通道数， $h$ 为高度， $w$ 为宽度。使用 $F$ 和 $W$ 来表示卷积核和FC核。因此对于一个核为 $k \times k$ 的卷积运算来说有：
$\begin{aligned} M^{(o u t)} = C O N V (M^{(i n)}, F, p) \end{aligned}$
其中 $M^{(o u t)} \in R^{n \times o \times h^{'} \times w^{'}}$ ， $o$ 为卷积输出通道， $p$ 指Padding大小， $F \in R^{o \times c \times k \times k}$ 为卷积核。
对于FC操作，输入维度为 $p$ ，输出维度为 $q$ ， $V^{(i n)} \in R^{n \times p}$ 表示输入， $V^{(o u t)} \in R^{n \times q}$ 表示输出，FC核为 $W \in R^{q \times p}$ ，则有矩阵乘法（MMUL）公式：
$\begin{aligned} V^{(o u t)} = M M U L (V^{(i n)}, W) = V^{(i n)} \cdot W^{T} \end{aligned}$
假设FC以 $M^{(i n)}$ 作为输入， $M^{(o u t)}$ 作为输出，所以需要Reshape操作（缩写为RS）转换为向量，即 $V^{(i n)} = R S (M^{(i n)}, (n, c h w))$ ，所以上述公式改写为：
$\begin{aligned} M^{(o u t)} = M M U L (M^{(i n)}, W) \end{aligned}$

Locality Injection

如图1所示，通道感知机和局部感知机在训练时是并行的，都使用 $M^{(i n)}$ 作为输入，可以通过如下方法将局部感知机融合进通道感知机中。

首先，假设FC核为 $W (o h w, c h w)$ ，卷积核为 $F (o, c, k, k)$ ，Padding大小为 $p$ ，则可以构建一个同时包含局部感知机和通道感知机的FC操作（核为 $W^{'}$ ），即

\begin{aligned} M M U L (M^{(i n)}, W^{'}) \\ = M M U L (M^{(i n)}, W) + C O N V (M^{(i n)}, F, p) \end{aligned}

又因为对于任意FC核 $W^{(1)}$ 和 $W^{(2)}$ 存在：

\begin{aligned} M M U L (M^{(i n)}, W^{(1)}) + M M U L (M^{(i n)}, W^{(2)}) \\ = M M U L (M^{(i n)}, W^{(1)} + W^{(2)}) \end{aligned}

所以可以寻找一个FC核 $W^{(F, p)}$ 使满足：

\begin{aligned} M M U L (M^{(i n)}, W^{(F, p)}) = C O N V (M^{(i n)}, F, p) \end{aligned}

以替换公式（1）中的卷积操作。

因为卷积操作可以被看作在空间位置上带有共享权重的稀疏FC，所以对于任意 $M^{(i n)}, F, p$ 都存在对应的FC核 $W^{(F, p)}$ ，因此* 问题的关键就在于寻找这个FC核的计算方法*。

下述方法即为寻找 $W^{(F, p)}$ 的过程：

首先，根据“基础公式表示”的FC公式，一个核为 $W^{(F, p)}$ 的FC的操作即为

\begin{aligned} V^{(o u t)} = V^{(i n)} \cdot {W^{(F, p)}}^{T} \end{aligned}

此时引入一个Identity矩阵 $I (c h w, c h w)$ ，得到

\begin{aligned} V^{(o u t)} = V^{(i n)} \cdot (I \cdot {W^{(F, p)}}^{T}) \end{aligned}

同时为了纠正张量尺寸，添加Reshape，有

\begin{aligned} V^{(o u t)} = V^{(i n)} \cdot R S (I \cdot {W^{(F, p)}}^{T}, (c h w, o h w)) \end{aligned}

可以注意到 $I \cdot {W^{(F, p)}}^{T}$ 可通过一个输入特征图从 $I$ Reshape到 $M^{(I)}$ ，核为 $F$ 的卷积操作得到，即：

\begin{aligned} I \cdot {W^{(F, p)}}^{T} & = C O N V (R S (I, (c h w, c, h, w)), F, p) \\ = C O N V (M^{(I)}, F, p) \end{aligned}

因此，综合公式（4）、（6）、（7），核 $W^{(F, p)}$ 计算推导为

\begin{aligned} {W^{(F, p)}}^{T} = R S (I \cdot {W^{(F, p)}}^{T}, (c h w, o h w)) \\ ⟹ {W^{(F, p)}}^{T} = R S (C O N V (M^{(I)}, F, p), (c h w, o h w)) \\ ⟹ W^{(F, p)} = R S (C O N V (M^{(I)}, F, p), (c h w, o h w))^{T} \end{aligned}

根据上述过程，总结一下就是一个卷积核等效的FC核是对Identity矩阵进行卷积和适当Reshape的结果，且该过程可微。

RepMLPNet

RepMLPBlock Components

全局感知机：输入维度 $(n, c, h, w)$ 经过AvgPool后变为向量 $(n, c, 1, 1)$ 然后经过两个FC层。
通道感知机：如果FC层的输入输出通道相等，那么常规的FC层会产生 $(c h w)^{2}$ 个参数，带来很大的参数量。一个比较自然的想法是参照深度卷积，对每个通道做FC操作，因此只需要计算 $c$ 个通道的FC，即参数量为 $c (h w)^{2}$ 。但是该参数量仍然过大，并且这样做会丢失通道之间的依赖关系，因此本文采用分组共享参数的方式构建“Set-Sharing FC”层。其中，对于输入张量，分为 $s$ 个Set，每组的多通道共享权重集合，因此参数量减少为 $s (h w)^{2}$ 。如图2所示， $n = 1, c = 4, s = 2$ ，相当于将输入的4通道划分为2组，每个组有自己的权重集合。
其具体计算过程为：因为划分为 $s$ 组，所以有 $\frac{c}{s}$ 个通道，考虑batch size则有 $\frac{n c}{s}$ 个维度为 $(s, h, w)$ 的张量，即 $(n, c, h, w) ⟹ (\frac{n c}{s}, s, h, w)$ 。将 $\frac{n c}{s}$ 个张量分别Flatten，得到维度为 $(\frac{n c}{s}, s h w)$ 的FC输入张量，然后再对每个张量做FC操作，因此FC操作的参数量为 $s \cdot (h w)^{2} = s (h w)^{2}$ 。但是该方法与参照深度卷积的FC操作相比并不能减少计算量。实际操作时，“Set-Sharing FC”将 $(\frac{n c}{s}, s h w)$ Reshape为 $(\frac{n c}{s}, s h w, 1, 1)$ 然后使用1x1卷积进行计算。
局部感知机：其中使用的卷积为深度卷积。
通过Locality Injection将局部感知机融合进通道感知机的过程：
首先明确局部感知机包含一个卷积操作和一次Batch Normalization，其中 $F \in R^{s \times 1 \times k \times k}$ 为卷积核， $μ, σ, γ, β \in R^{s}$ 分别为BN操作中的均值、标准差、Scaling因子与bias。所以根据BN计算公式，有：
$\begin{aligned} γ_{i} \cdot \frac{C O N V (M, F, p) - μ_{i}}{σ_{i}} + β_{i} \\ = C O N V (M, \frac{γ_{i} \cdot F}{σ_{i}}, p) - \frac{γ_{i} \cdot μ_{i}}{σ_{i}} + β_{i} \end{aligned}$
假设存在 $F_{i, :, :, :}^{'} = \frac{γ_{i} \cdot F_{i, :, :, :}}{σ_{i}}$ 和 $b_{i}^{'} = - \frac{γ_{i} \cdot μ_{i}}{σ_{i}} + β_{i}$ ，则公式（9）可简写为：
$\begin{aligned} γ_{i} \cdot \frac{C O N V (M, F, p)_{i, :, :, :} - μ_{i}}{σ_{i}} + β_{i} \\ = C O N V (M, F^{'}, p)_{i, :, :, :} + b^{'}, \forall 1 \leq i \leq s \end{aligned}$
因此，通过公式（8）可以转换每个卷积操作，产生FC核并叠加到通道感知机中。

分层架构设计

与常规MLP模型的初始大幅降采样后使用小Size计算不同，文中的模型采用卷积网络中常见的分层设计。对于输入图片，采用一个4x4且Stride=4的卷积进行4倍下采样，对于后面的每个阶段，采用Embedding层减半尺寸并加倍通道数。网络规模如下表所示：

实验与结果

图像分类

在相同的设置下，RepMLPNetT256在精度上比MLP-Mixer高出0.5%，而前者的FLOPs只有后者的1/4。在简单的训练方法下，ResMLP和MLP-Mixer明显下降，例如，在没有300个epoch DeiT式训练的情况下，ResMLP-S12的准确性下降了8.9%（76.6%→67.7%）。在FLOPs相当的情况下，MLP比CNN快，例如，RepMLPNet-D256的FLOPs比ResNeXt-101高，但运行速度是后者的1.6倍。

背景

Method

经过重参数化的Locality Injection

基础公式表示

Locality Injection

RepMLPNet

RepMLPBlock Components

分层架构设计

实验与结果

图像分类

语义分割

消融实验

背景 ​

Method ​

经过重参数化的Locality Injection ​

基础公式表示 ​

Locality Injection ​

RepMLPNet ​

RepMLPBlock Components ​

分层架构设计 ​

实验与结果 ​

图像分类 ​

语义分割 ​

消融实验 ​

背景

Method

经过重参数化的Locality Injection

基础公式表示

Locality Injection

RepMLPNet

RepMLPBlock Components

分层架构设计

实验与结果

图像分类

语义分割

消融实验