5分钟就能学会的简单结构 | MLP-Mixer: An all-MLP Architecture for Vision | CVPR2021

加载中

五分钟就能学好的简易构造 | MLP-Mixer: An all-MLP Architecture for Vision | CVPR2021

「最前沿」：近期忙各式各样的事儿，升级慢了。抽时间写一点。这一篇內容非常简单，只必须5min就可以学好。

大家给予了MLP-Mixer构架，以后通称Mixer。这是一个有竞争能力，可是定义和技术性都非常简单的构造，而且沒有采用卷积和自专注力。

类似transformer，Mixer模型的键入仍然是照片的Patch历经线性映射以后的编码序列，简易的说便是embedding。是一个样子好似“patches x channels” 那样的一个特点。在其中，大家把照片embedding以后的编码序列，称为token。

下面的图是Mixer的宏观经济框架图：

Mixer运用了二种MLP层：

「图讲解」

从图上caption一部分能够见到。“Per-patch Fully-connected”我觉得便是embedding层，比如说把一个32x32x3的彩色patch照片，全连接投射到128层面的编码序列。
Mixer Layer便是文章内容明确提出的关键自主创新构造。在其中，每一个Mixer Layer包括一个token-mixing MLP 和一个channel-mixing MLP，这两个构造全是由2个池化层和GELU激活函数构成。
大家再看来图中的上边一部分，展现了Mixer Layer的关键点：最先，假定一个照片被分为了9个patch，随后每一个patch历经embedding，变成了一个128的空间向量。那麼原照历经embedding，最后获得的是9x128那样的一个引流矩阵。
1. 这一引流矩阵先历经LayerNorm，等同于是在128这一层面上开展归一化；
2. 随后引流矩阵历经转置，变为128x9的款式；
3. 历经第一个全连接层，这一MLP应当便是channel-mixing了，由于是对9这一patch层面开展测算；
4. 随后再转置成9x128，再开展layer norm；
5. 随后token-mixing channels，在128这一spatial层面上开展测算；
6. 正中间加了2个skip connection。

「这儿，我们可以发觉，全部构造的确比较简单，回过头试一下实际效果去。」