RedPajama-7B是TOGETHER宣布RedPajama项目之后公开的第一个模型。RedPajama是TOGETHER公司宣布的一项领导开源AI模型的项目。主要的目标是基于1.2万亿个tokens的数据来复现MetaAI的LLaMA的训练。

像GPT-4这样的基础模型推动了人工智能的快速发展。然而，最强大的模型通常是商业封闭模型或只有部分开源。RedPajama是一个项目，旨在创建一组领先的、完全开源的模型。2023年4月17日，RedPajama宣布完成了该项目的第一步：再现了超过1.2万亿个标记的LLaMA训练数据集。这个数据集是根据LLaMA论文公布的思路收集的结果。

完整的RedPajama 1.2万亿个标记的数据集和一个更小、更易于消化的随机样本可通过Hugging Face下载。完整的数据集在磁盘上未解压缩的大小约为5TB，在压缩后下载的大小约为3TB。

2023年4月23日，TOGETHER官方博客宣布了RedPajama-7B的新进展。为了测试RedPajama数据集的质量，TOGETHER进行了一次训练，使用与EleutherAI的Pythia-7B相同的模型架构和分词器，并在Pile上进行训练。如果RedPajama数据提供了额外的价值，我们应该期望RedPajama-Pythia-7B的性能优于Pythia-7B（并且本身也是一个有用的成果）。目前，TOGETHER已经完成了这项实验的40%，可以有把握地说，RedPajama-7B在Pythia-7B架构方面的性能优于Pile。

下图是目前的测试结果：

使用Pythia架构的7B RedPajama基础模型在HELM评分上获得了比Pythia-7B更高质量的结果，这是一次中期训练的检查点。

更令人鼓舞的是，我们发现模型检查点的质量仍在随着更多标记的加入而提高，这在许多HELM场景下都成立。请注意，波动是因为在4000亿个标记处仍具有相当大的学习率，并且我们尚未收敛（学习率衰减时间表针对1万亿个标记）。

目前， RedPajama-7B模型未公开！

RedPajama-7B

模型基本信息

是否支持推理过程

最高上下文输入长度

最长输出结果

模型类型

发布时间

模型预文件大小

开源和体验地址

代码开源状态

预训练权重开源

GitHub 源码

Hugging Face

在线体验

官方介绍与博客

官方论文

DataLearnerAI博客

API接口信息

接口速度（满分5分）

接口价格

输入价格:

输出价格:

输入支持的模态

文本

图片

视频

音频

Embedding（向量）

输出支持的模态

文本

图片

视频

音频

Embedding（向量）

RedPajama-7B模型在各大评测榜单的评分

发布机构

模型介绍

关注DataLearnerAI公众号