OpenLLaMA 7B - OpenLLaMA 7B

模型详细情况和参数

OpenLLaMA 7B

模型全称
OpenLLaMA 7B
模型简称
OpenLLaMA 7B
模型类型
基础大模型
发布日期
2023-05-03
预训练文件大小
13.5GB
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
70.0
模型代码开源协议
预训练结果开源商用情况
-
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型

OpenLLaMA 7B 简介

OpenLLaMA 7B是UC Berkeley的博士生Hao Liu发起的一个开源LLaMA复刻项目。


OpenLLaMA项目简介

MetaAI发布LLaMA模型的时候,在论文中详细描述了模型的架构、数据集的处理等信息,并向业界发布了预训练结果。但是LLaMA的许可有一个限制是任何基于LLaMA微调的模型都需要从MetaAI申请原始的预训练结果文件,不允许私自分发。


OpenLLaMA的目的是从头开始训练一个类似LLaMA模型,使用的模型架构、context长度、训练步骤、学习速率等,完全按照原始的LLaMA论文设置。唯一的区别是OpenLLaMA使用RedPajama数据进行训练。


OpenLLaMA 7B模型简介

5月3日,OpenLLaMA发布第一个训练结果,即OpenLLaMA 7B模型,70亿参数版本的模型,基于2000亿tokens的RedPajama数据集训练。使用Google的TPU-v4s和EasyLM进行训练。模型提供JAX和PyTorch两个版本的预训练结果。训练过程中的损失函数如下:




OpenLLaMA 7B的详细信息如下:


OpenLLaMA 7B信息名称OpenLLaMA 7B信息结果参考链接
模型名称OpenLLaMA 7B
基础模型无,重新编写,完全复刻LLaMA架构https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
参数大小70亿
训练参数完全按照原始LLaMA论文设置
训练硬件Google的TPU-v4s
训练平台UC Berkeley的EasyLMhttps://github.com/young-geng/EasyLM
训练速度每秒每TPU-v4s训练1900个tokens
训练数据集RedPajamahttps://www.together.xyz/blog/redpajama
开源情况完全开源



OpenLLaMA 7B评价结果

作者对比了GPT-J 6B( https://www.datalearner.com/ai/pretrained-models/GPT-J%206B )、LLaMA 7B( https://www.datalearner.com/ai/pretrained-models/LLaMA )两个模型,结果如下:


Task/MetricGPT-J 6BLLaMA 7BOpen LLaMA 7B Preview 200B Tokens
anli_r1/acc0.320.350.34
anli_r2/acc0.340.340.35
anli_r3/acc0.350.370.34
arc_challenge/acc0.340.390.31
arc_challenge/acc_norm0.370.410.34
arc_easy/acc0.670.680.66
arc_easy/acc_norm0.620.520.59
boolq/acc0.660.750.67
cb/acc0.360.360.38
cb/f10.260.240.29
hellaswag/acc0.500.560.47
hellaswag/acc_norm0.660.730.63
openbookqa/acc0.290.290.26
openbookqa/acc_norm0.380.410.37
piqa/acc0.750.780.74
piqa/acc_norm0.760.780.74
record/em0.880.910.87
record/f10.890.910.88
rte/acc0.540.560.53
truthfulqa_mc/mc10.200.210.21
truthfulqa_mc/mc20.360.340.34
wic/acc0.500.500.50
winogrande/acc0.640.680.62
wsc/acc0.370.350.57
Average0.500.520.50


其中GPT-J  6B是EleutherAI研究小组创建的开源自回归语言模型。它是OpenAI的GPT-3的最先进替代品之一,在各种自然语言任务(如聊天、摘要和问答等)方面表现良好。"GPT-J"指的是模型类别,而"6B"表示可训练参数的数量为60亿。在5000亿tokens的Pile数据集上训练,而原始的LLaMA则是在1万亿tokens数据集训练,此次发布的OpenLLaMA 7B预览版则是基于2000亿tokens数据的RedPajama数据集训练。从上面的结果看,这三个模型效果似乎差不多。但是,OpenLLaMA模型将会继续训练,直到完成在1万亿tokens上的训练,预期最终结果会更好。


OpenLLaMA的开源协议

由于OpenLLaMA 7B完全从头开始训练,因此无需获取原始的LLaMA权重,也不需要遵从LLaMA相关的协议。目前官方说法是这个预览版的预训练结果和训练框架都是基于Apache 2.0协议开源。因此商用友好。不过需要注意的是,未来正式版本是否有变更还不确定。



OpenLLaMA未来计划

OpenLLaMA 7B最终将完成基于1万亿的RedPajama数据集上的训练,并且同时进行的还有一个3B的模型。







欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

OpenLLaMA 7B所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

OpenLLaMA 7B相关的任务
问答系统

问答系统

Question Answering

35个资源