我们研究了在给定的计算预算下，训练一个转化器语言模型的最佳模型大小和标记数量。我们发现，目前的大型语言模型训练不足，这是最近关注在保持训练数据量不变的情况下扩展语言模型的结果。通过在5-5,000亿个标记上训练超过400个从7,000万到超过160亿个参数的语言模型，我们发现，对于计算优化的训练，模型的大小和训练标记的数量应该是等比例的：模型大小每增加一倍，训练标记的数量也应该增加一倍。我们通过训练一个预测的计算最优模型Chinchilla来测试这个假设，该模型使用与Gopher相同的计算预算，但有700B的参数和4倍以上的数据。Chinchilla在大范围的下游评估任务上均匀且明显地优于Gopher（280B）、GPT-3（175B）、Jurassic-1（178B）和Megatron-Turing NLG（530B）。这也意味着Chinchilla用于微调和推理的计算量大大减少，大大促进了下游的使用。作为一个亮点，Chinchilla在MMLU基准上达到了最先进的平均准确率67.5%，比Gopher提高了7%以上。

Chinchilla

模型基本信息

是否支持推理过程

最高上下文输入长度

最长输出结果

模型类型

发布时间

模型预文件大小

开源和体验地址

代码开源状态

预训练权重开源

GitHub 源码

Hugging Face

在线体验

官方介绍与博客

官方论文

DataLearnerAI博客

API接口信息

接口速度（满分5分）

接口价格

输入价格:

输出价格:

输入支持的模态

文本

图片

视频

音频

Embedding（向量）

输出支持的模态

文本

图片

视频

音频

Embedding（向量）

Chinchilla模型在各大评测榜单的评分

发布机构

模型介绍

关注DataLearnerAI公众号