OP

OpenLLaMA 7B

基础大模型OpenLLaMA

OpenLLaMA 7B

发布时间: 2023-05-03更新于: 2023-05-03 21:27:46.733729
模型参数
70亿
上下文长度
2K
中文支持
不支持
推理能力

OpenLLaMA 7B 是由 Berkeley Artificial Intelligence Research 发布的 AI 模型,发布时间为 2023-05-03,定位为 基础大模型,参数规模约为 70亿,上下文长度为 2K,模型文件大小约 13.5GB。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

OpenLLaMA 7B

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
基础大模型
输入/输出模态
暂无数据
发布时间
2023-05-03
模型文件大小
13.5GB
MoE架构
总参数 / 激活参数
70亿 / 不涉及
知识截止
暂无数据
OpenLLaMA 7B

开源和体验地址

代码开源状态
暂无数据
预训练权重开源
暂无数据
在线体验
暂无在线体验地址
OpenLLaMA 7B

官方介绍与博客

DataLearnerAI博客
暂无介绍博客
OpenLLaMA 7B

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。
OpenLLaMA 7B

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合?打开对比工具

OpenLLaMA 7B

发布机构

Berkeley Artificial Intelligence Research
查看发布机构详情
OpenLLaMA 7B

模型解读

OpenLLaMA 7B是UC Berkeley的博士生Hao Liu发起的一个开源LLaMA复刻项目。


OpenLLaMA项目简介

MetaAI发布LLaMA模型的时候,在论文中详细描述了模型的架构、数据集的处理等信息,并向业界发布了预训练结果。但是LLaMA的许可有一个限制是任何基于LLaMA微调的模型都需要从MetaAI申请原始的预训练结果文件,不允许私自分发。


OpenLLaMA的目的是从头开始训练一个类似LLaMA模型,使用的模型架构、context长度、训练步骤、学习速率等,完全按照原始的LLaMA论文设置。唯一的区别是OpenLLaMA使用RedPajama数据进行训练。


OpenLLaMA 7B模型简介

5月3日,OpenLLaMA发布第一个训练结果,即OpenLLaMA 7B模型,70亿参数版本的模型,基于2000亿tokens的RedPajama数据集训练。使用Google的TPU-v4s和EasyLM进行训练。模型提供JAX和PyTorch两个版本的预训练结果。训练过程中的损失函数如下:




OpenLLaMA 7B的详细信息如下:


OpenLLaMA 7B信息名称OpenLLaMA 7B信息结果参考链接
模型名称OpenLLaMA 7B
基础模型无,重新编写,完全复刻LLaMA架构https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
参数大小70亿
训练参数完全按照原始LLaMA论文设置
训练硬件Google的TPU-v4s
训练平台UC Berkeley的EasyLMhttps://github.com/young-geng/EasyLM
训练速度每秒每TPU-v4s训练1900个tokens
训练数据集RedPajamahttps://www.together.xyz/blog/redpajama
开源情况完全开源



OpenLLaMA 7B评价结果

作者对比了GPT-J 6B( https://www.datalearner.com/ai/pretrained-models/GPT-J%206B )、LLaMA 7B( https://www.datalearner.com/ai/pretrained-models/LLaMA )两个模型,结果如下:


Task/MetricGPT-J 6BLLaMA 7BOpen LLaMA 7B Preview 200B Tokens
anli_r1/acc0.320.350.34
anli_r2/acc0.340.340.35
anli_r3/acc0.350.370.34
arc_challenge/acc0.340.390.31
arc_challenge/acc_norm0.370.410.34
arc_easy/acc0.670.680.66
arc_easy/acc_norm0.620.520.59
boolq/acc0.660.750.67
cb/acc0.360.360.38
cb/f10.260.240.29
hellaswag/acc0.500.560.47
hellaswag/acc_norm0.660.730.63
openbookqa/acc0.290.290.26
openbookqa/acc_norm0.380.410.37
piqa/acc0.750.780.74
piqa/acc_norm0.760.780.74
record/em0.880.910.87
record/f10.890.910.88
rte/acc0.540.560.53
truthfulqa_mc/mc10.200.210.21
truthfulqa_mc/mc20.360.340.34
wic/acc0.500.500.50
winogrande/acc0.640.680.62
wsc/acc0.370.350.57
Average0.500.520.50


其中GPT-J  6B是EleutherAI研究小组创建的开源自回归语言模型。它是OpenAI的GPT-3的最先进替代品之一,在各种自然语言任务(如聊天、摘要和问答等)方面表现良好。"GPT-J"指的是模型类别,而"6B"表示可训练参数的数量为60亿。在5000亿tokens的Pile数据集上训练,而原始的LLaMA则是在1万亿tokens数据集训练,此次发布的OpenLLaMA 7B预览版则是基于2000亿tokens数据的RedPajama数据集训练。从上面的结果看,这三个模型效果似乎差不多。但是,OpenLLaMA模型将会继续训练,直到完成在1万亿tokens上的训练,预期最终结果会更好。


OpenLLaMA的开源协议

由于OpenLLaMA 7B完全从头开始训练,因此无需获取原始的LLaMA权重,也不需要遵从LLaMA相关的协议。目前官方说法是这个预览版的预训练结果和训练框架都是基于Apache 2.0协议开源。因此商用友好。不过需要注意的是,未来正式版本是否有变更还不确定。



OpenLLaMA未来计划

OpenLLaMA 7B最终将完成基于1万亿的RedPajama数据集上的训练,并且同时进行的还有一个3B的模型。







DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码