预训练模型详情
模型全称
Vision Transformers-22B
模型简称
ViT-22B
发布日期
2023-02-10
预训练文件大小
未知
模型参数数量(亿)
220
发布论文
Scaling Vision Transformers to 22 Billion Parameters
发布机构
基础模型
ViT-22B是谷歌最新发布的220亿参数的视觉大模型。此前,虽然语言模型的参数一直增长,但是在视觉领域,模型的参数只有40亿。而往上的规模训练会出现一些不稳定情况。因此谷歌精心设计了ViT模型,使其有很高的并行训练效率。