Switch Transformer

Switch Transformer 预训练模型详情

模型全称

Switch Transformer

发布组织

Google

模型大小

类型

自然语言处理

发布论文

Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

模型简介

在深度学习中,模型通常对所有输入都重复使用相同的参数。混合专家(MoE)违背了这一点,而是为每个输入的例子选择不同的参数。其结果是一个稀疏激活的模型--参数数量多得离谱--但计算成本不变。然而,尽管MoE取得了一些显著的成功,但由于复杂性、通信成本和训练的不稳定性,其广泛采用受到了阻碍--我们用Switch Transformer来解决这些问题。我们简化了MoE的路由算法,设计了直观的改进模型,降低了通信和计算成本。我们提出的训练技术有助于解决不稳定性问题,并且我们首次表明大型稀疏模型可以用较低的精度(bfloat16)格式进行训练。我们设计了基于T5-Base和T5-Large的模型,在相同的计算资源下,预训练速度提高了7倍。这些改进延伸到多语言环境中,我们测量了在所有101种语言中比mT5-Base版本的收益。最后,我们通过在 "巨无霸清洁抓取语料库 "上预训练高达万亿个参数的模型来推进当前语言模型的规模,并实现了比T5-XXL模型4倍的速度提升。