Re

RedPajama-7B

基础大模型

RedPajama-7B

发布时间: 2023-04-17

模型参数(Parameters)
70.0
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

2K tokens

最长输出结果
暂无数据
模型类型

基础大模型

发布时间

2023-04-17

模型预文件大小
暂无数据

开源和体验地址

代码开源状态
预训练权重开源
-
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

RedPajama-7B模型在各大评测榜单的评分

发布机构

模型介绍

RedPajama-7B是TOGETHER宣布RedPajama项目之后公开的第一个模型。RedPajama是TOGETHER公司宣布的一项领导开源AI模型的项目。主要的目标是基于1.2万亿个tokens的数据来复现MetaAI的LLaMA的训练。


像GPT-4这样的基础模型推动了人工智能的快速发展。然而,最强大的模型通常是商业封闭模型或只有部分开源。RedPajama是一个项目,旨在创建一组领先的、完全开源的模型。2023年4月17日,RedPajama宣布完成了该项目的第一步:再现了超过1.2万亿个标记的LLaMA训练数据集。这个数据集是根据LLaMA论文公布的思路收集的结果。


完整的RedPajama 1.2万亿个标记的数据集和一个更小、更易于消化的随机样本可通过Hugging Face下载。完整的数据集在磁盘上未解压缩的大小约为5TB,在压缩后下载的大小约为3TB。


2023年4月23日,TOGETHER官方博客宣布了RedPajama-7B的新进展。为了测试RedPajama数据集的质量,TOGETHER进行了一次训练,使用与EleutherAI的Pythia-7B相同的模型架构和分词器,并在Pile上进行训练。如果RedPajama数据提供了额外的价值,我们应该期望RedPajama-Pythia-7B的性能优于Pythia-7B(并且本身也是一个有用的成果)。目前,TOGETHER已经完成了这项实验的40%,可以有把握地说,RedPajama-7B在Pythia-7B架构方面的性能优于Pile。


下图是目前的测试结果:



使用Pythia架构的7B RedPajama基础模型在HELM评分上获得了比Pythia-7B更高质量的结果,这是一次中期训练的检查点。


更令人鼓舞的是,我们发现模型检查点的质量仍在随着更多标记的加入而提高,这在许多HELM场景下都成立。请注意,波动是因为在4000亿个标记处仍具有相当大的学习率,并且我们尚未收敛(学习率衰减时间表针对1万亿个标记)。


目前, RedPajama-7B模型未公开!


关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat