GLaM

GLaM 预训练模型详情

模型全称

Generalist Language Model

发布组织

模型大小

类型

自然语言处理

发布论文

GLaM: Efficient Scaling of Language Models with Mixture-of-Experts

模型简介

用更多的数据、计算和参数扩展语言模型,推动了自然语言处理的重大进展。例如,由于扩展,GPT-3能够在语境学习任务中取得强大的结果。然而,训练这些大型密集的模型需要大量的计算资源。在本文中,我们提出并开发了一个名为GLaM(通用语言模型)的语言模型系列,它使用稀疏激活的专家混合物架构来扩展模型的容量,同时与密集的变体相比,训练成本也大大降低。最大的GLaM有1.2万亿个参数,比GPT-3大约大7倍。它所消耗的能量只有训练GPT-3的1/3,推理所需的计算跳数也只有一半,同时在29个NLP任务中仍然取得了更好的整体零次和一次性能。