PaLM

PaLM 预训练模型详情

模型全称

Pathways Language Model

发布组织

Google

模型大小

类型

自然语言处理

发布论文

PaLM: Scaling Language Modeling with Pathways

模型简介

大型语言模型已被证明在各种自然语言任务中使用几率学习取得了显著的性能,这极大地减少了使模型适应特定应用所需的特定任务训练实例的数量。为了进一步了解规模对少量学习的影响,我们训练了一个5400亿参数、密集激活的Transformer语言模型,我们称之为Pathways Language Model PaLM。我们使用Pathways在6144个TPU v4芯片上训练了PaLM,这是一个新的ML系统,能够在多个TPU Pods上进行高效的训练。我们通过在数百个语言理解和生成基准上取得最先进的几次学习结果来证明扩展的持续好处。在其中一些任务上,PaLM 540B实现了突破性的性能,在一套多步骤推理任务上超过了微调的最先进水平,并在最近发布的BIG-bench基准上超过了人类的平均性能。大量的BIG-bench任务显示了模型规模的不连续改进,这意味着当我们扩展到最大的模型时,性能陡然提高。PaLM在多语言任务和源代码生成方面也有很强的能力,我们在一系列的基准测试中证明了这一点。此外,我们还对偏见和毒性进行了全面的分析,并研究了与模型规模有关的训练数据记忆程度。最后,我们讨论了与大型语言模型有关的伦理考虑,并讨论了潜在的缓解策略。