LL

LLaMA

基础大模型

Large Language Model Meta AI

发布时间: 2023-02-24

模型参数(Parameters)
650.0
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

最高上下文输入长度

2K tokens

最长输出结果
未披露
模型类型

基础大模型

发布时间

2023-02-24

模型预文件大小

200GB

开源和体验地址

代码开源状态
预训练权重开源
-
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

LLaMA模型在各大评测榜单的评分

发布机构

Facebook AI研究实验室
Facebook AI研究实验室
查看发布机构详情

模型介绍

LLaMA支持中文!


一、LLaMA简介


LLaMA全称是Large Language Model Meta AI,是由Meta AI(原FacebookAI研究实验室)研究人员发布的一个预训练语言模型。该模型最大的特点就是基于以较小的参数规模取得了优秀的性能。根据官网提供的信息,LLaMA的模型包含4个版本,最小的只有70亿参数,最大的650亿参数,但是其性能相比较之前的OPT(模型地址: https://www.datalearner.com/ai-resources/pretrained-models/OPT )和1750亿参数的GPT-3(模型地址: https://www.datalearner.com/ai-resources/pretrained-models/gpt-3 )都是非常由有竞争力的。


MetaAI研究人员认为,当前大模型的高成本阻碍了学术研究,因此,开发出这个更小更强的模型将有利于学术研究的发展。使用较少参数的模型,在更多的tokens上训练是MetaAI研究人员认为的一种降低模型使用成本的方式。为了更好的效果,即便是LLaMA最小的70亿参数的版本,其训练使用的tokens数量也有1万亿个(1 trillion tokens)。


二、LLaMA模型详细情况

LLaMA是由MetaAI的Facebook人工智能实验室(FAIR)发布的开放使用的预训练语言模型,模型在2022年11月到2023年2月之间训练的。与其他大型语言模型一样,LLaMA的工作原理是将一连串的单词作为输入,并预测下一个单词,以递归地生成文本。为了训练该模型,研究人员选择了使用人数最多的20种语言的文本,重点是那些具有拉丁字母和西里尔字母的语言。


LLaMA详细信息如下:

模型信息项目模型信息结果
发布者FAIR
训练时间2022/11-2023/2
发布时间2023/2/24
技术架构基于transformer的自回归语言模型
开源协议Non-commercial bespoke license


LLaMA模型的版本有4个,详细情况如下:

参数数量维度heads数量layers数量学习速率批次大小tokens数量
70亿409632323.0e-04400万1万亿
130亿512040403.0e-04400万1万亿
330亿665652601.5e-04400万1.4万亿
650亿819264801.5e-04400万1.4万亿


官网也公布了这四个版本模型在不同任务上的表现,结果也是十分亮眼,且随着模型参数量增加,结果也是更好。


模型使用的训练数据集如下:

数据集名称样本比例Epochs占用的硬盘空间
CommonCrawl67.0%1.103.3TB
C415.0%1.06783GB
Github4.50%0.64328GB
Wikipedia4.50%2.4583GB
Books4.50%2.2385GB
arXiv2.50%1.0692GB
StackExchange2.0%1.0378GB





三、LLaMA的开放获取

当前,尽管MetaAI声明该模型是开放共享的,不允许商用,但是需要各个研究人员填写表单申请(申请地址: https://docs.google.com/forms/d/e/1FAIpQLSfqNECQnMkycAp2jP4Z9TFX0cGR4uf7b_fBxjY_OjhJILlKGA/viewform )


To maintain integrity and prevent misuse, we are releasing our model under a noncommercial license focused on research use cases. Access to the model will be granted on a case-by-case basis to academic researchers; those affiliated with organizations in government, civil society, and academia; and industry research laboratories around the world.

为了保持完整性和防止滥用,我们将在非商业许可下发布我们的模型,重点是研究用例。学术研究人员;与政府、民间社会和学术界的组织有关的人员;以及世界各地的工业研究实验室,将被逐一授予对该模型的访问权。


四、LLaMA的其它信息

论文中说明了LLaMA的开发使用了大约2048个A100-80G的GPU,持续时间5个月。非常高昂的成本了,虽然相比较GPT-3可能还是便宜一点的。


... we estimate that we used 2048 A100-80GB for a period of approximately 5 months to develop our models







关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat