LLaMA - Large Language Model Meta AI

模型详细情况和参数

LLaMA

模型全称
Large Language Model Meta AI
模型简称
LLaMA
模型类型
基础大模型
发布日期
2023-02-24
预训练文件大小
200GB
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
650.0
模型代码开源协议
预训练结果开源商用情况
-
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型

Large Language Model Meta AI 简介

LLaMA支持中文!


一、LLaMA简介


LLaMA全称是Large Language Model Meta AI,是由Meta AI(原FacebookAI研究实验室)研究人员发布的一个预训练语言模型。该模型最大的特点就是基于以较小的参数规模取得了优秀的性能。根据官网提供的信息,LLaMA的模型包含4个版本,最小的只有70亿参数,最大的650亿参数,但是其性能相比较之前的OPT(模型地址: https://www.datalearner.com/ai-resources/pretrained-models/OPT )和1750亿参数的GPT-3(模型地址: https://www.datalearner.com/ai-resources/pretrained-models/gpt-3 )都是非常由有竞争力的。


MetaAI研究人员认为,当前大模型的高成本阻碍了学术研究,因此,开发出这个更小更强的模型将有利于学术研究的发展。使用较少参数的模型,在更多的tokens上训练是MetaAI研究人员认为的一种降低模型使用成本的方式。为了更好的效果,即便是LLaMA最小的70亿参数的版本,其训练使用的tokens数量也有1万亿个(1 trillion tokens)。


二、LLaMA模型详细情况

LLaMA是由MetaAI的Facebook人工智能实验室(FAIR)发布的开放使用的预训练语言模型,模型在2022年11月到2023年2月之间训练的。与其他大型语言模型一样,LLaMA的工作原理是将一连串的单词作为输入,并预测下一个单词,以递归地生成文本。为了训练该模型,研究人员选择了使用人数最多的20种语言的文本,重点是那些具有拉丁字母和西里尔字母的语言。


LLaMA详细信息如下:

模型信息项目模型信息结果
发布者FAIR
训练时间2022/11-2023/2
发布时间2023/2/24
技术架构基于transformer的自回归语言模型
开源协议Non-commercial bespoke license


LLaMA模型的版本有4个,详细情况如下:

参数数量维度heads数量layers数量学习速率批次大小tokens数量
70亿409632323.0e-04400万1万亿
130亿512040403.0e-04400万1万亿
330亿665652601.5e-04400万1.4万亿
650亿819264801.5e-04400万1.4万亿


官网也公布了这四个版本模型在不同任务上的表现,结果也是十分亮眼,且随着模型参数量增加,结果也是更好。


模型使用的训练数据集如下:

数据集名称样本比例Epochs占用的硬盘空间
CommonCrawl67.0%1.103.3TB
C415.0%1.06783GB
Github4.50%0.64328GB
Wikipedia4.50%2.4583GB
Books4.50%2.2385GB
arXiv2.50%1.0692GB
StackExchange2.0%1.0378GB





三、LLaMA的开放获取

当前,尽管MetaAI声明该模型是开放共享的,不允许商用,但是需要各个研究人员填写表单申请(申请地址: https://docs.google.com/forms/d/e/1FAIpQLSfqNECQnMkycAp2jP4Z9TFX0cGR4uf7b_fBxjY_OjhJILlKGA/viewform )


To maintain integrity and prevent misuse, we are releasing our model under a noncommercial license focused on research use cases. Access to the model will be granted on a case-by-case basis to academic researchers; those affiliated with organizations in government, civil society, and academia; and industry research laboratories around the world.

为了保持完整性和防止滥用,我们将在非商业许可下发布我们的模型,重点是研究用例。学术研究人员;与政府、民间社会和学术界的组织有关的人员;以及世界各地的工业研究实验室,将被逐一授予对该模型的访问权。


四、LLaMA的其它信息

论文中说明了LLaMA的开发使用了大约2048个A100-80G的GPU,持续时间5个月。非常高昂的成本了,虽然相比较GPT-3可能还是便宜一点的。


... we estimate that we used 2048 A100-80GB for a period of approximately 5 months to develop our models







欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

LLaMA所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

LLaMA相关的任务