模型全称
Gopher
发布组织
DeepMind
模型大小
类型
自然语言处理
发布论文
Scaling Language Models: Methods, Analysis & Insights from Training Gopher
模型简介
语言建模通过利用大型人类书面知识库来更好地预测和理解世界,为实现智能通信系统提供了一个步骤。在本文中,我们对基于Transformer的语言模型在各种模型规模下的性能进行了分析--从具有数千万参数的模型到称为Gopher的2800亿参数模型。这些模型在152个不同的任务上进行了评估,在大多数情况下实现了最先进的性能。在阅读理解、事实核查和有毒语言识别等领域,规模的收益最大,但逻辑和数学推理的收益较小。我们对训练数据集和模型的行为进行了全面的分析,涵盖了模型规模与偏见和毒性的交叉点。最后,我们讨论了语言模型在人工智能安全和减轻下游危害方面的应用。