模型详细情况和参数
OpenLLaMA 7B是UC Berkeley的博士生Hao Liu发起的一个开源LLaMA复刻项目。
MetaAI发布LLaMA模型的时候,在论文中详细描述了模型的架构、数据集的处理等信息,并向业界发布了预训练结果。但是LLaMA的许可有一个限制是任何基于LLaMA微调的模型都需要从MetaAI申请原始的预训练结果文件,不允许私自分发。
OpenLLaMA的目的是从头开始训练一个类似LLaMA模型,使用的模型架构、context长度、训练步骤、学习速率等,完全按照原始的LLaMA论文设置。唯一的区别是OpenLLaMA使用RedPajama数据进行训练。
5月3日,OpenLLaMA发布第一个训练结果,即OpenLLaMA 7B模型,70亿参数版本的模型,基于2000亿tokens的RedPajama数据集训练。使用Google的TPU-v4s和EasyLM进行训练。模型提供JAX和PyTorch两个版本的预训练结果。训练过程中的损失函数如下:
OpenLLaMA 7B的详细信息如下:
OpenLLaMA 7B信息名称 | OpenLLaMA 7B信息结果 | 参考链接 |
---|---|---|
模型名称 | OpenLLaMA 7B | |
基础模型 | 无,重新编写,完全复刻LLaMA架构 | https://ai.facebook.com/blog/large-language-model-llama-meta-ai/ |
参数大小 | 70亿 | |
训练参数 | 完全按照原始LLaMA论文设置 | |
训练硬件 | Google的TPU-v4s | |
训练平台 | UC Berkeley的EasyLM | https://github.com/young-geng/EasyLM |
训练速度 | 每秒每TPU-v4s训练1900个tokens | |
训练数据集 | RedPajama | https://www.together.xyz/blog/redpajama |
开源情况 | 完全开源 |
作者对比了GPT-J 6B( https://www.datalearner.com/ai/pretrained-models/GPT-J%206B )、LLaMA 7B( https://www.datalearner.com/ai/pretrained-models/LLaMA )两个模型,结果如下:
Task/Metric | GPT-J 6B | LLaMA 7B | Open LLaMA 7B Preview 200B Tokens |
---|---|---|---|
anli_r1/acc | 0.32 | 0.35 | 0.34 |
anli_r2/acc | 0.34 | 0.34 | 0.35 |
anli_r3/acc | 0.35 | 0.37 | 0.34 |
arc_challenge/acc | 0.34 | 0.39 | 0.31 |
arc_challenge/acc_norm | 0.37 | 0.41 | 0.34 |
arc_easy/acc | 0.67 | 0.68 | 0.66 |
arc_easy/acc_norm | 0.62 | 0.52 | 0.59 |
boolq/acc | 0.66 | 0.75 | 0.67 |
cb/acc | 0.36 | 0.36 | 0.38 |
cb/f1 | 0.26 | 0.24 | 0.29 |
hellaswag/acc | 0.50 | 0.56 | 0.47 |
hellaswag/acc_norm | 0.66 | 0.73 | 0.63 |
openbookqa/acc | 0.29 | 0.29 | 0.26 |
openbookqa/acc_norm | 0.38 | 0.41 | 0.37 |
piqa/acc | 0.75 | 0.78 | 0.74 |
piqa/acc_norm | 0.76 | 0.78 | 0.74 |
record/em | 0.88 | 0.91 | 0.87 |
record/f1 | 0.89 | 0.91 | 0.88 |
rte/acc | 0.54 | 0.56 | 0.53 |
truthfulqa_mc/mc1 | 0.20 | 0.21 | 0.21 |
truthfulqa_mc/mc2 | 0.36 | 0.34 | 0.34 |
wic/acc | 0.50 | 0.50 | 0.50 |
winogrande/acc | 0.64 | 0.68 | 0.62 |
wsc/acc | 0.37 | 0.35 | 0.57 |
Average | 0.50 | 0.52 | 0.50 |
其中GPT-J 6B是EleutherAI研究小组创建的开源自回归语言模型。它是OpenAI的GPT-3的最先进替代品之一,在各种自然语言任务(如聊天、摘要和问答等)方面表现良好。"GPT-J"指的是模型类别,而"6B"表示可训练参数的数量为60亿。在5000亿tokens的Pile数据集上训练,而原始的LLaMA则是在1万亿tokens数据集训练,此次发布的OpenLLaMA 7B预览版则是基于2000亿tokens数据的RedPajama数据集训练。从上面的结果看,这三个模型效果似乎差不多。但是,OpenLLaMA模型将会继续训练,直到完成在1万亿tokens上的训练,预期最终结果会更好。
由于OpenLLaMA 7B完全从头开始训练,因此无需获取原始的LLaMA权重,也不需要遵从LLaMA相关的协议。目前官方说法是这个预览版的预训练结果和训练框架都是基于Apache 2.0协议开源。因此商用友好。不过需要注意的是,未来正式版本是否有变更还不确定。
OpenLLaMA 7B最终将完成基于1万亿的RedPajama数据集上的训练,并且同时进行的还有一个3B的模型。