RedPajama-7B - RedPajama-7B

模型详细情况和参数

RedPajama-7B

模型全称
RedPajama-7B
模型简称
RedPajama-7B
模型类型
基础大模型
发布日期
2023-04-17
预训练文件大小
未知
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
70.0
模型代码开源协议
预训练结果开源商用情况
-
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型
发布机构

RedPajama-7B 简介

RedPajama-7B是TOGETHER宣布RedPajama项目之后公开的第一个模型。RedPajama是TOGETHER公司宣布的一项领导开源AI模型的项目。主要的目标是基于1.2万亿个tokens的数据来复现MetaAI的LLaMA的训练。


像GPT-4这样的基础模型推动了人工智能的快速发展。然而,最强大的模型通常是商业封闭模型或只有部分开源。RedPajama是一个项目,旨在创建一组领先的、完全开源的模型。2023年4月17日,RedPajama宣布完成了该项目的第一步:再现了超过1.2万亿个标记的LLaMA训练数据集。这个数据集是根据LLaMA论文公布的思路收集的结果。


完整的RedPajama 1.2万亿个标记的数据集和一个更小、更易于消化的随机样本可通过Hugging Face下载。完整的数据集在磁盘上未解压缩的大小约为5TB,在压缩后下载的大小约为3TB。


2023年4月23日,TOGETHER官方博客宣布了RedPajama-7B的新进展。为了测试RedPajama数据集的质量,TOGETHER进行了一次训练,使用与EleutherAI的Pythia-7B相同的模型架构和分词器,并在Pile上进行训练。如果RedPajama数据提供了额外的价值,我们应该期望RedPajama-Pythia-7B的性能优于Pythia-7B(并且本身也是一个有用的成果)。目前,TOGETHER已经完成了这项实验的40%,可以有把握地说,RedPajama-7B在Pythia-7B架构方面的性能优于Pile。


下图是目前的测试结果:



使用Pythia架构的7B RedPajama基础模型在HELM评分上获得了比Pythia-7B更高质量的结果,这是一次中期训练的检查点。


更令人鼓舞的是,我们发现模型检查点的质量仍在随着更多标记的加入而提高,这在许多HELM场景下都成立。请注意,波动是因为在4000亿个标记处仍具有相当大的学习率,并且我们尚未收敛(学习率衰减时间表针对1万亿个标记)。


目前, RedPajama-7B模型未公开!


欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

RedPajama-7B所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

RedPajama-7B相关的任务
问答系统

问答系统

Question Answering

35个资源