模型详细情况和参数
RedPajama-7B是TOGETHER宣布RedPajama项目之后公开的第一个模型。RedPajama是TOGETHER公司宣布的一项领导开源AI模型的项目。主要的目标是基于1.2万亿个tokens的数据来复现MetaAI的LLaMA的训练。
像GPT-4这样的基础模型推动了人工智能的快速发展。然而,最强大的模型通常是商业封闭模型或只有部分开源。RedPajama是一个项目,旨在创建一组领先的、完全开源的模型。2023年4月17日,RedPajama宣布完成了该项目的第一步:再现了超过1.2万亿个标记的LLaMA训练数据集。这个数据集是根据LLaMA论文公布的思路收集的结果。
完整的RedPajama 1.2万亿个标记的数据集和一个更小、更易于消化的随机样本可通过Hugging Face下载。完整的数据集在磁盘上未解压缩的大小约为5TB,在压缩后下载的大小约为3TB。
2023年4月23日,TOGETHER官方博客宣布了RedPajama-7B的新进展。为了测试RedPajama数据集的质量,TOGETHER进行了一次训练,使用与EleutherAI的Pythia-7B相同的模型架构和分词器,并在Pile上进行训练。如果RedPajama数据提供了额外的价值,我们应该期望RedPajama-Pythia-7B的性能优于Pythia-7B(并且本身也是一个有用的成果)。目前,TOGETHER已经完成了这项实验的40%,可以有把握地说,RedPajama-7B在Pythia-7B架构方面的性能优于Pile。
下图是目前的测试结果:
使用Pythia架构的7B RedPajama基础模型在HELM评分上获得了比Pythia-7B更高质量的结果,这是一次中期训练的检查点。
更令人鼓舞的是,我们发现模型检查点的质量仍在随着更多标记的加入而提高,这在许多HELM场景下都成立。请注意,波动是因为在4000亿个标记处仍具有相当大的学习率,并且我们尚未收敛(学习率衰减时间表针对1万亿个标记)。
目前, RedPajama-7B模型未公开!