模型详细情况和参数
视觉Transformers (ViT)已经成为视觉任务的最佳架构之一。ViT首先将图像分割成同等大小的方形斑块。这些被称为标记,是一个从语言模型继承下来的术语。然而,与最大的语言模型相比,ViT模型在参数数量和计算量上要小几个数量级。
为了大规模地扩展视觉模型,我们用独立的前馈层的稀疏混合物(我们称之为专家)取代了ViT架构中的一些密集前馈层(FFN)。一个可学习的路由器层为每个单独的标记选择哪些专家(以及他们的加权方式)。也就是说,来自同一图像的不同标记可能会被路由到不同的专家。每个标记最多只能被送到K(通常是1或2)个专家那里,总共有E个专家(在我们的实验中,E通常是32)。这使得模型的规模可以扩展,同时保持每个令牌的计算量大致不变。下图更详细地显示了编码器模块的结构。