V-MoE

Vision Mixture of Experts

预训练模型详情

模型全称

Vision Mixture of Experts

模型简称

V-MoE

发布日期

2021-06-10

预训练文件大小

未知

模型参数数量(亿)

150

发布论文

Scaling Vision with Sparse Mixture of Experts

发布机构

基础模型

无基础模型

Vision Mixture of Experts 简介

视觉Transformers (ViT)已经成为视觉任务的最佳架构之一。ViT首先将图像分割成同等大小的方形斑块。这些被称为标记,是一个从语言模型继承下来的术语。然而,与最大的语言模型相比,ViT模型在参数数量和计算量上要小几个数量级。


为了大规模地扩展视觉模型,我们用独立的前馈层的稀疏混合物(我们称之为专家)取代了ViT架构中的一些密集前馈层(FFN)。一个可学习的路由器层为每个单独的标记选择哪些专家(以及他们的加权方式)。也就是说,来自同一图像的不同标记可能会被路由到不同的专家。每个标记最多只能被送到K(通常是1或2)个专家那里,总共有E个专家(在我们的实验中,E通常是32)。这使得模型的规模可以扩展,同时保持每个令牌的计算量大致不变。下图更详细地显示了编码器模块的结构。

V-MoE所属的领域
计算机视觉

计算机视觉

Computer Vision

35个资源

V-MoE相关的任务
图像生成

图像生成

Image Generation

35个资源