Re

RedPajama INCITE 3B

基础大模型

RedPajama INCITE 3B

发布时间: 2023-05-05

模型参数(Parameters)
28.0
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

2K tokens

最长输出结果
暂无数据
模型类型

基础大模型

发布时间

2023-05-05

模型预文件大小

5.69GB

开源和体验地址

代码开源状态
预训练权重开源
-
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

RedPajama INCITE 3B模型在各大评测榜单的评分

发布机构

模型介绍

RedPajama项目是TOGETHER公司发布的一项旨在复刻LLaMA的项目。RedPajama INCITE 3B是官方发布的第一批模型,30亿参数版本。


RedPajama INCITE 3B系列模型简介

RedPajama INCITE 3B模型是RedPajama系列模型中的一类模型,是一种语言模型。基于RedPajama的数据集训练,该模型包含3个版本,全部开源。

模型名称模型类型参数大小(亿)

RedPajama-INCITE-Base-3B-v1
语言模型28
RedPajama-INCITE-Chat-3B-v1Chat优化28
RedPajama-INCITE-Instruct-3B-v1指令优化28


其中Base模型是基础的语言模型,根据官方的描述,要比其它同等规模参数的模型效果更好。而Chat模型则是基于Dolly 2.0和Open Assistant数据集做微调的结果。Instruct是做了一些prompts的优化,使用GPT-JT的方式( https://www.datalearner.com/ai-models/pretrained-models/GPT-JT )做的指令优化。


本次发布的模型都属于INCITE系列,是一项合作的成果。这项工作基于:

  1. RedPajama收集的1.2万亿tokens的RedPajama数据集
  2. EleutherAI的Pythia训练代码
  3. Stanford的FlashAttention和Together、Stanford CRFM的HELM基准测试
  4. MILA、EleutherAI和LAION对INCITE计划奖项“可扩展的基础模型用于可转移的通用AI”中Summit超级计算机的计算时间(关于INCITE解释见后面内容)


RedPajama INCITE 3B系列模型的性能

RedPajama INCITE 3B模型是在8000亿tokens上训练的结果,其few-shot和zero-shot的表现都比同等规模模型效果更好。其在HELM核心场景下评测结果:


Few-Shot得分结果

模型名称类型HELM (16个核心场景平均得分)
GPT-NeoBase model0.357
Pythia-2.8BBase model0.377
RedPajama-INCITE-Base-3B-v1Base model0.406
RedPajama-INCITE-Instruct-3B-v1Instruction-tuned0.453
Llama-7BBase model0.465


可以看到,和MetaAI的LLaMA-7B的得分很接近~


Zero-Shot得分结果

模型名称Lambada_openai
(acc)
Hellaswag
(acc_norm)
Winogrande
(acc)
Piqa(acc)average
GPT-Neo0.62230.55790.57690.72190.6197
Pythia-2.8B0.64660.59330.60060.73990.6451
Pythia-2.8B-dedup0.65240.59410.58480.74040.6429
RedPajama-INCITE-Base-3B-v10.65410.63170.63220.74700.6662



RedPajama-INCITE-Base-3B-v1的HuggingFace地址: https://huggingface.co/togethercomputer/RedPajama-INCITE-Base-3B-v1 

RedPajama-INCITE-Chat-3B-v1的HuggingFace地址: https://huggingface.co/togethercomputer/RedPajama-INCITE-Chat-3B-v1 

RedPajama-INCITE-Instruct-3B-v1的HuggingFace地址: https://huggingface.co/togethercomputer/RedPajama-INCITE-Instruct-3B-v1 


关于INCTE名称的含义来源

RedPajama是一项合作项目。INCITE含义:“理论和实验的创新和新型计算影响(The Innovative and Novel Computational Impact on Theory and Experiment,INCITE)”计划是科学界获得美国能源部领先级超级计算机(ALCF和OLCF)的主要手段。按照上述说明,MILA、EleutherAI和LAION应该是有这个超级计算机的使用时间,然后他们把它贡献给了RedPajama团队用以训练RedPajama INCITE 3B,所以这个模型名称带了INCITE。


关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat