V-

V-MoE

Vision Mixture of Experts

发布时间: 2021-06-10493
模型参数
150.0亿
上下文长度
2K
中文支持
不支持
推理能力

模型基本信息

推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
基础大模型
发布时间
2021-06-10
模型文件大小
暂无数据
MoE架构
总参数 / 激活参数
150.0 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据

开源和体验地址

代码开源状态
暂无数据
预训练权重开源
暂无数据
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。

评测得分

当前尚无可展示的评测数据。

发布机构

模型解读

视觉Transformers (ViT)已经成为视觉任务的最佳架构之一。ViT首先将图像分割成同等大小的方形斑块。这些被称为标记,是一个从语言模型继承下来的术语。然而,与最大的语言模型相比,ViT模型在参数数量和计算量上要小几个数量级。


为了大规模地扩展视觉模型,我们用独立的前馈层的稀疏混合物(我们称之为专家)取代了ViT架构中的一些密集前馈层(FFN)。一个可学习的路由器层为每个单独的标记选择哪些专家(以及他们的加权方式)。也就是说,来自同一图像的不同标记可能会被路由到不同的专家。每个标记最多只能被送到K(通常是1或2)个专家那里,总共有E个专家(在我们的实验中,E通常是32)。这使得模型的规模可以扩展,同时保持每个令牌的计算量大致不变。下图更详细地显示了编码器模块的结构。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码