CH

Chinchilla

基础大模型DeepMind ResearchChinchilla

Chinchilla

发布时间: 2022-03-29更新于: 2023-03-11 23:40:07.943278
在线体验GitHubHugging FaceCompare
模型参数
700亿
上下文长度
2K
中文支持
不支持
推理能力

Chinchilla 是由 Google Deep Mind 发布的 AI 模型,发布时间为 2022-03-29,定位为 基础大模型,参数规模约为 700亿,上下文长度为 2K,模型文件大小约 未知。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

Chinchilla

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
基础大模型
输入/输出模态
暂无数据
发布时间
2022-03-29
模型文件大小
未知
MoE架构
总参数 / 激活参数
700亿 / 不涉及
知识截止
暂无数据
Chinchilla

开源和体验地址

代码开源状态
暂无数据
预训练权重开源
暂无数据
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址
Chinchilla

官方介绍与博客

DataLearnerAI博客
暂无介绍博客
Chinchilla

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。
Chinchilla

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合?打开对比工具

Chinchilla

发布机构

Chinchilla

模型解读

我们研究了在给定的计算预算下,训练一个转化器语言模型的最佳模型大小和标记数量。我们发现,目前的大型语言模型训练不足,这是最近关注在保持训练数据量不变的情况下扩展语言模型的结果。通过在5-5,000亿个标记上训练超过400个从7,000万到超过160亿个参数的语言模型,我们发现,对于计算优化的训练,模型的大小和训练标记的数量应该是等比例的:模型大小每增加一倍,训练标记的数量也应该增加一倍。我们通过训练一个预测的计算最优模型Chinchilla来测试这个假设,该模型使用与Gopher相同的计算预算,但有700B的参数和4倍以上的数据。Chinchilla在大范围的下游评估任务上均匀且明显地优于Gopher(280B)、GPT-3(175B)、Jurassic-1(178B)和Megatron-Turing NLG(530B)。这也意味着Chinchilla用于微调和推理的计算量大大减少,大大促进了下游的使用。作为一个亮点,Chinchilla在MMLU基准上达到了最先进的平均准确率67.5%,比Gopher提高了7%以上。


DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码