模型详细情况和参数
LLaMA支持中文!
一、LLaMA简介
LLaMA全称是Large Language Model Meta AI,是由Meta AI(原FacebookAI研究实验室)研究人员发布的一个预训练语言模型。该模型最大的特点就是基于以较小的参数规模取得了优秀的性能。根据官网提供的信息,LLaMA的模型包含4个版本,最小的只有70亿参数,最大的650亿参数,但是其性能相比较之前的OPT(模型地址: https://www.datalearner.com/ai-resources/pretrained-models/OPT )和1750亿参数的GPT-3(模型地址: https://www.datalearner.com/ai-resources/pretrained-models/gpt-3 )都是非常由有竞争力的。
MetaAI研究人员认为,当前大模型的高成本阻碍了学术研究,因此,开发出这个更小更强的模型将有利于学术研究的发展。使用较少参数的模型,在更多的tokens上训练是MetaAI研究人员认为的一种降低模型使用成本的方式。为了更好的效果,即便是LLaMA最小的70亿参数的版本,其训练使用的tokens数量也有1万亿个(1 trillion tokens)。
二、LLaMA模型详细情况
LLaMA是由MetaAI的Facebook人工智能实验室(FAIR)发布的开放使用的预训练语言模型,模型在2022年11月到2023年2月之间训练的。与其他大型语言模型一样,LLaMA的工作原理是将一连串的单词作为输入,并预测下一个单词,以递归地生成文本。为了训练该模型,研究人员选择了使用人数最多的20种语言的文本,重点是那些具有拉丁字母和西里尔字母的语言。
LLaMA详细信息如下:
模型信息项目 | 模型信息结果 |
---|---|
发布者 | FAIR |
训练时间 | 2022/11-2023/2 |
发布时间 | 2023/2/24 |
技术架构 | 基于transformer的自回归语言模型 |
开源协议 | Non-commercial bespoke license |
LLaMA模型的版本有4个,详细情况如下:
参数数量 | 维度 | heads数量 | layers数量 | 学习速率 | 批次大小 | tokens数量 |
---|---|---|---|---|---|---|
70亿 | 4096 | 32 | 32 | 3.0e-04 | 400万 | 1万亿 |
130亿 | 5120 | 40 | 40 | 3.0e-04 | 400万 | 1万亿 |
330亿 | 6656 | 52 | 60 | 1.5e-04 | 400万 | 1.4万亿 |
650亿 | 8192 | 64 | 80 | 1.5e-04 | 400万 | 1.4万亿 |
官网也公布了这四个版本模型在不同任务上的表现,结果也是十分亮眼,且随着模型参数量增加,结果也是更好。
模型使用的训练数据集如下:
数据集名称 | 样本比例 | Epochs | 占用的硬盘空间 |
---|---|---|---|
CommonCrawl | 67.0% | 1.10 | 3.3TB |
C4 | 15.0% | 1.06 | 783GB |
Github | 4.50% | 0.64 | 328GB |
Wikipedia | 4.50% | 2.45 | 83GB |
Books | 4.50% | 2.23 | 85GB |
arXiv | 2.50% | 1.06 | 92GB |
StackExchange | 2.0% | 1.03 | 78GB |
三、LLaMA的开放获取
当前,尽管MetaAI声明该模型是开放共享的,不允许商用,但是需要各个研究人员填写表单申请(申请地址: https://docs.google.com/forms/d/e/1FAIpQLSfqNECQnMkycAp2jP4Z9TFX0cGR4uf7b_fBxjY_OjhJILlKGA/viewform )
To maintain integrity and prevent misuse, we are releasing our model under a noncommercial license focused on research use cases. Access to the model will be granted on a case-by-case basis to academic researchers; those affiliated with organizations in government, civil society, and academia; and industry research laboratories around the world.
为了保持完整性和防止滥用,我们将在非商业许可下发布我们的模型,重点是研究用例。学术研究人员;与政府、民间社会和学术界的组织有关的人员;以及世界各地的工业研究实验室,将被逐一授予对该模型的访问权。
四、LLaMA的其它信息
论文中说明了LLaMA的开发使用了大约2048个A100-80G的GPU,持续时间5个月。非常高昂的成本了,虽然相比较GPT-3可能还是便宜一点的。
... we estimate that we used 2048 A100-80GB for a period of approximately 5 months to develop our models