模型详细情况和参数
我们研究了在给定的计算预算下,训练一个转化器语言模型的最佳模型大小和标记数量。我们发现,目前的大型语言模型训练不足,这是最近关注在保持训练数据量不变的情况下扩展语言模型的结果。通过在5-5,000亿个标记上训练超过400个从7,000万到超过160亿个参数的语言模型,我们发现,对于计算优化的训练,模型的大小和训练标记的数量应该是等比例的:模型大小每增加一倍,训练标记的数量也应该增加一倍。我们通过训练一个预测的计算最优模型Chinchilla来测试这个假设,该模型使用与Gopher相同的计算预算,但有700B的参数和4倍以上的数据。Chinchilla在大范围的下游评估任务上均匀且明显地优于Gopher(280B)、GPT-3(175B)、Jurassic-1(178B)和Megatron-Turing NLG(530B)。这也意味着Chinchilla用于微调和推理的计算量大大减少,大大促进了下游的使用。作为一个亮点,Chinchilla在MMLU基准上达到了最先进的平均准确率67.5%,比Gopher提高了7%以上。