OpenLLaMA 7B是UC Berkeley的博士生Hao Liu发起的一个开源LLaMA复刻项目。

OpenLLaMA项目简介

MetaAI发布LLaMA模型的时候，在论文中详细描述了模型的架构、数据集的处理等信息，并向业界发布了预训练结果。但是LLaMA的许可有一个限制是任何基于LLaMA微调的模型都需要从MetaAI申请原始的预训练结果文件，不允许私自分发。

OpenLLaMA的目的是从头开始训练一个类似LLaMA模型，使用的模型架构、context长度、训练步骤、学习速率等，完全按照原始的LLaMA论文设置。唯一的区别是OpenLLaMA使用RedPajama数据进行训练。

OpenLLaMA 7B模型简介

5月3日，OpenLLaMA发布第一个训练结果，即OpenLLaMA 7B模型，70亿参数版本的模型，基于2000亿tokens的RedPajama数据集训练。使用Google的TPU-v4s和EasyLM进行训练。模型提供JAX和PyTorch两个版本的预训练结果。训练过程中的损失函数如下：

OpenLLaMA 7B的详细信息如下：

OpenLLaMA 7B信息名称	OpenLLaMA 7B信息结果	参考链接
模型名称	OpenLLaMA 7B
基础模型	无，重新编写，完全复刻LLaMA架构	https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
参数大小	70亿
训练参数	完全按照原始LLaMA论文设置
训练硬件	Google的TPU-v4s
训练平台	UC Berkeley的EasyLM	https://github.com/young-geng/EasyLM
训练速度	每秒每TPU-v4s训练1900个tokens
训练数据集	RedPajama	https://www.together.xyz/blog/redpajama
开源情况	完全开源

OpenLLaMA 7B评价结果

作者对比了GPT-J 6B（ https://www.datalearner.com/ai/pretrained-models/GPT-J%206B ）、LLaMA 7B（ https://www.datalearner.com/ai/pretrained-models/LLaMA ）两个模型，结果如下：

Task/Metric	GPT-J 6B	LLaMA 7B	Open LLaMA 7B Preview 200B Tokens
anli_r1/acc	0.32	0.35	0.34
anli_r2/acc	0.34	0.34	0.35
anli_r3/acc	0.35	0.37	0.34
arc_challenge/acc	0.34	0.39	0.31
arc_challenge/acc_norm	0.37	0.41	0.34
arc_easy/acc	0.67	0.68	0.66
arc_easy/acc_norm	0.62	0.52	0.59
boolq/acc	0.66	0.75	0.67
cb/acc	0.36	0.36	0.38
cb/f1	0.26	0.24	0.29
hellaswag/acc	0.50	0.56	0.47
hellaswag/acc_norm	0.66	0.73	0.63
openbookqa/acc	0.29	0.29	0.26
openbookqa/acc_norm	0.38	0.41	0.37
piqa/acc	0.75	0.78	0.74
piqa/acc_norm	0.76	0.78	0.74
record/em	0.88	0.91	0.87
record/f1	0.89	0.91	0.88
rte/acc	0.54	0.56	0.53
truthfulqa_mc/mc1	0.20	0.21	0.21
truthfulqa_mc/mc2	0.36	0.34	0.34
wic/acc	0.50	0.50	0.50
winogrande/acc	0.64	0.68	0.62
wsc/acc	0.37	0.35	0.57
Average	0.50	0.52	0.50

其中GPT-J 6B是EleutherAI研究小组创建的开源自回归语言模型。它是OpenAI的GPT-3的最先进替代品之一，在各种自然语言任务（如聊天、摘要和问答等）方面表现良好。"GPT-J"指的是模型类别，而"6B"表示可训练参数的数量为60亿。在5000亿tokens的Pile数据集上训练，而原始的LLaMA则是在1万亿tokens数据集训练，此次发布的OpenLLaMA 7B预览版则是基于2000亿tokens数据的RedPajama数据集训练。从上面的结果看，这三个模型效果似乎差不多。但是，OpenLLaMA模型将会继续训练，直到完成在1万亿tokens上的训练，预期最终结果会更好。

OpenLLaMA的开源协议

由于OpenLLaMA 7B完全从头开始训练，因此无需获取原始的LLaMA权重，也不需要遵从LLaMA相关的协议。目前官方说法是这个预览版的预训练结果和训练框架都是基于Apache 2.0协议开源。因此商用友好。不过需要注意的是，未来正式版本是否有变更还不确定。

OpenLLaMA未来计划

OpenLLaMA 7B最终将完成基于1万亿的RedPajama数据集上的训练，并且同时进行的还有一个3B的模型。

OpenLLaMA 7B

模型基本信息

是否支持推理过程

最高上下文输入长度

最长输出结果

模型类型

发布时间

模型预文件大小

开源和体验地址

代码开源状态

预训练权重开源

GitHub 源码

Hugging Face

在线体验

官方介绍与博客

官方论文

DataLearnerAI博客

API接口信息

接口速度（满分5分）

接口价格

输入价格:

输出价格:

输入支持的模态

文本

图片

视频

音频

Embedding（向量）

输出支持的模态

文本

图片

视频

音频

Embedding（向量）

OpenLLaMA 7B模型在各大评测榜单的评分

发布机构

模型介绍

OpenLLaMA项目简介

OpenLLaMA 7B模型简介

OpenLLaMA 7B评价结果

OpenLLaMA的开源协议

OpenLLaMA未来计划

关注DataLearnerAI公众号