Op

OpenLLaMA 7B

基础大模型

OpenLLaMA 7B

发布时间: 2023-05-03

模型参数(Parameters)
70.0
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

最高上下文输入长度

2K tokens

最长输出结果
未披露
模型类型

基础大模型

发布时间

2023-05-03

模型预文件大小

13.5GB

开源和体验地址

代码开源状态
预训练权重开源
-
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

OpenLLaMA 7B模型在各大评测榜单的评分

发布机构

Berkeley Artificial Intelligence Research
Berkeley Artificial Intelligence Research
查看发布机构详情

模型介绍

OpenLLaMA 7B是UC Berkeley的博士生Hao Liu发起的一个开源LLaMA复刻项目。


OpenLLaMA项目简介

MetaAI发布LLaMA模型的时候,在论文中详细描述了模型的架构、数据集的处理等信息,并向业界发布了预训练结果。但是LLaMA的许可有一个限制是任何基于LLaMA微调的模型都需要从MetaAI申请原始的预训练结果文件,不允许私自分发。


OpenLLaMA的目的是从头开始训练一个类似LLaMA模型,使用的模型架构、context长度、训练步骤、学习速率等,完全按照原始的LLaMA论文设置。唯一的区别是OpenLLaMA使用RedPajama数据进行训练。


OpenLLaMA 7B模型简介

5月3日,OpenLLaMA发布第一个训练结果,即OpenLLaMA 7B模型,70亿参数版本的模型,基于2000亿tokens的RedPajama数据集训练。使用Google的TPU-v4s和EasyLM进行训练。模型提供JAX和PyTorch两个版本的预训练结果。训练过程中的损失函数如下:




OpenLLaMA 7B的详细信息如下:


OpenLLaMA 7B信息名称OpenLLaMA 7B信息结果参考链接
模型名称OpenLLaMA 7B
基础模型无,重新编写,完全复刻LLaMA架构https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
参数大小70亿
训练参数完全按照原始LLaMA论文设置
训练硬件Google的TPU-v4s
训练平台UC Berkeley的EasyLMhttps://github.com/young-geng/EasyLM
训练速度每秒每TPU-v4s训练1900个tokens
训练数据集RedPajamahttps://www.together.xyz/blog/redpajama
开源情况完全开源



OpenLLaMA 7B评价结果

作者对比了GPT-J 6B( https://www.datalearner.com/ai/pretrained-models/GPT-J%206B )、LLaMA 7B( https://www.datalearner.com/ai/pretrained-models/LLaMA )两个模型,结果如下:


Task/MetricGPT-J 6BLLaMA 7BOpen LLaMA 7B Preview 200B Tokens
anli_r1/acc0.320.350.34
anli_r2/acc0.340.340.35
anli_r3/acc0.350.370.34
arc_challenge/acc0.340.390.31
arc_challenge/acc_norm0.370.410.34
arc_easy/acc0.670.680.66
arc_easy/acc_norm0.620.520.59
boolq/acc0.660.750.67
cb/acc0.360.360.38
cb/f10.260.240.29
hellaswag/acc0.500.560.47
hellaswag/acc_norm0.660.730.63
openbookqa/acc0.290.290.26
openbookqa/acc_norm0.380.410.37
piqa/acc0.750.780.74
piqa/acc_norm0.760.780.74
record/em0.880.910.87
record/f10.890.910.88
rte/acc0.540.560.53
truthfulqa_mc/mc10.200.210.21
truthfulqa_mc/mc20.360.340.34
wic/acc0.500.500.50
winogrande/acc0.640.680.62
wsc/acc0.370.350.57
Average0.500.520.50


其中GPT-J  6B是EleutherAI研究小组创建的开源自回归语言模型。它是OpenAI的GPT-3的最先进替代品之一,在各种自然语言任务(如聊天、摘要和问答等)方面表现良好。"GPT-J"指的是模型类别,而"6B"表示可训练参数的数量为60亿。在5000亿tokens的Pile数据集上训练,而原始的LLaMA则是在1万亿tokens数据集训练,此次发布的OpenLLaMA 7B预览版则是基于2000亿tokens数据的RedPajama数据集训练。从上面的结果看,这三个模型效果似乎差不多。但是,OpenLLaMA模型将会继续训练,直到完成在1万亿tokens上的训练,预期最终结果会更好。


OpenLLaMA的开源协议

由于OpenLLaMA 7B完全从头开始训练,因此无需获取原始的LLaMA权重,也不需要遵从LLaMA相关的协议。目前官方说法是这个预览版的预训练结果和训练框架都是基于Apache 2.0协议开源。因此商用友好。不过需要注意的是,未来正式版本是否有变更还不确定。



OpenLLaMA未来计划

OpenLLaMA 7B最终将完成基于1万亿的RedPajama数据集上的训练,并且同时进行的还有一个3B的模型。







关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat