Chinchilla

Chinchilla 预训练模型详情

模型全称

Chinchilla

发布组织

模型大小

未知

类型

自然语言处理

模型链接

发布论文

Training Compute-Optimal Large Language Models

模型简介

我们研究了在给定的计算预算下,训练一个转化器语言模型的最佳模型大小和标记数量。我们发现,目前的大型语言模型训练不足,这是最近在保持训练数据量不变的情况下专注于扩展语言模型的结果。通过在5000亿个标记上训练7000万到160亿个参数的语言模型,我们发现,对于计算最优的训练,模型的大小和训练标记的数量应该是等比例的:模型大小每增加一倍,训练标记的数量也应该增加一倍。我们通过训练一个预测的最佳计算模型chinchilla来测试这个假设,该模型使用与gopher相同的计算预算,但有700B的参数和4倍以上的数据。chinchilla在大范围的下游评估任务上均匀且明显地超过了Gopher(280B)、GPT-3(175B)、Jurassic-1(178B)和Megatron-Turing NLG(530B)。这也意味着,chinchilla用于微调和推理的计算量大大减少,极大地促进了下游的使用。作为一个亮点,chinchilla在MMLU基准上达到了67.5%的平均精度,比gopher提高了7%以上。