本文由 发布,转载请注明出处,如有问题请联系我们! 发布时间: 2021-06-075分钟就能学会的简单结构 | MLP-Mixer: An all-MLP Architecture for Vision | CVPR2021

加载中

五分钟就能学好的简易构造 | MLP-Mixer: An all-MLP Architecture for Vision | CVPR2021

  • 文章内容转自:微信公众平台「深度学习炼丹术」
  • 创作者:炼药兄(热烈欢迎沟通交流,共同奋斗)
  • 联系电话:手机微信cyx645016617
  • 毕业论文名字:「MLP-Mixer: An all-MLP Architecture for Vision」
  • 毕业论文连接:https://arxiv.org/pdf/2105.01601v1.pdf

「最前沿」:近期忙各式各样的事儿,升级慢了。抽时间写一点。这一篇內容非常简单,只必须5min就可以学好。

文章正文逐渐

大家给予了MLP-Mixer构架,以后通称Mixer。这是一个有竞争能力,可是定义和技术性都非常简单的构造,而且沒有采用卷积和自专注力

类似transfORMer,Mixer模型的键入仍然是照片的Patch历经线性映射以后的编码序列,简易的说便是Embedding。是一个样子好似“patches x channels” 那样的一个特点。在其中,大家把照片embedding以后的编码序列,称为token

下面的图是Mixer的宏观经济框架图:
image.png

Mixer运用了二种MLP层:

  • channel-mixing MLPs:容许不一样channels特点中间的沟通交流;
  • token-mixing MLPs:容许不一样室内空间部位中间的沟通交流。
  • 这两个MLP层是交叠的。

「图讲解」

  • 从图上caption一部分能够见到。“Per-patch Fully-connected”我觉得便是embedding层,比如说把一个32x32x3的彩色patch照片,全连接投射到128层面的编码序列。
  • Mixer Layer便是文章内容明确提出的关键自主创新构造。在其中,每一个Mixer Layer包括一个token-mixing MLP 和一个channel-mixing MLP,这两个构造全是由2个池化层和GELU激活函数构成。
  • 大家再看来图中的上边一部分,展现了Mixer Layer的关键点:最先,假定一个照片被分为了9个patch,随后每一个patch历经embedding,变成了一个128的空间向量。那麼原照历经embedding,最后获得的是9x128那样的一个引流矩阵
    1. 这一引流矩阵先历经LayerNorm,等同于是在128这一层面上开展归一化;
    2. 随后引流矩阵历经转置,变为128x9的款式;
    3. 历经第一个全连接层,这一MLP应当便是channel-mixing了,由于是对9这一patch层面开展测算
    4. 随后再转置成9x128,再开展layer norm;
    5. 随后token-mixing channels,在128这一spatial层面上开展测算;
    6. 正中间加了2个skip connection。

「这儿,我们可以发觉,全部构造的确比较简单,回过头试一下实际效果去。」

评论(0条)

刀客源码 匿名评论