Gopher

Gopher 预训练模型详情

模型全称

Gopher

发布组织

模型大小

类型

自然语言处理

发布论文

Scaling Language Models: Methods, Analysis & Insights from Training Gopher

模型简介

语言建模通过利用大型人类书面知识库来更好地预测和理解世界,为实现智能通信系统提供了一个步骤。在本文中,我们对基于Transformer的语言模型在各种模型规模下的性能进行了分析--从具有数千万参数的模型到称为Gopher的2800亿参数模型。这些模型在152个不同的任务上进行了评估,在大多数情况下实现了最先进的性能。在阅读理解、事实核查和有毒语言识别等领域,规模的收益最大,但逻辑和数学推理的收益较小。我们对训练数据集和模型的行为进行了全面的分析,涵盖了模型规模与偏见和毒性的交叉点。最后,我们讨论了语言模型在人工智能安全和减轻下游危害方面的应用。