标签:Llama3,大语言模型,开源模型,MetaAI,模型升级 时间:2024-04-25T10:29:44
第一代和第二代的Llama模型都包含了四个不同参数规模的版本,其中最小的模型参数规模在70亿,往上分别有130亿、340亿和700亿(第一代最高的是650亿)。而此次发布的第三代Llama3模型,目前公开的只有80亿参数规模版本和700亿版本。而根据透露,最高的参数版本是4000亿参数规模的模型。只是目前还在训练中。
首先是模型架构相关的升级。目前,官方没有公开Llama3的技术报告或者论文细节,在官方博客中只给出了一些简单的指标。
关于Llama3的模型架构,应该是没有本质变化,官方的说法是:
根据我们的设计理念,我们在 Llama 3 中选择了一个相对标准的纯解码器(decoder-only)变压器架构。
因此,模型架构基本没变,但是增加了Group Query Attention(分组查询注意力,GQA),这项技术最大的特点是可以加速推理,这也是我们实测中感受到的,Llama3-8B-Instruct在4090上的速度飞快!
剩余的模型相关的架构,这里我们对比的是上下文长度和词汇表。
上下文长度每一代都翻倍了,在Llama3中,训练的时候用的就是8K上下文:
从上图可以看到,Llama三代模型的上下文长度分别是2K、4K和8K,虽然Llama3训练是8K上下文,但是按照目前业界的技术,应该是可以继续拓展到更长上下文的。而官方也说过,未来Llama3会有更长上下文的版本。
在模型架构中另一个值得注意的是词汇表的大幅提高。在Llama1和Llama2中,MetaAI的词汇表都是32K大小,这可能与前两代模型的训练数据差距不大有关。而第三代的Llama3模型的词汇表大小变为128K,也就是说它的tokenizer有了较大的变化。
更大的词汇表意味着更强的语义表达能力,也是支持更多语言的一个基础。
训练过程的升级我们主要看训练时间和训练数据的变化。此前,业界一直说大模型的训练成本在下降。但是从Llama3的变化看,下降的是单位训练成本,但是大模型总的训练成本其实在大幅增长。
Llama3的训练数据达到了15万亿,比第一代和第二代Llama模型加在一起还多好几倍。如下图所示,第一代的小一点的模型训练数据是1万亿tokens,而较大的650亿规模的模型训练数据是1.4万亿tokens。到了第二代Llama2系列,训练数据都增长到了2万亿tokens。
可以看到,第三代Llama3训练数据大幅增加,几乎也是目前市场上训练数据最多的一个模型了。这里有一点也值得提一下,DeepMind发表过一个非常著名的论文,就是关于Chinchilla模型的论文,里面提到了训练数据对大模型性能的影响。根据论文发现的规律,80亿参数规模的模型,用2000亿tokens数据集训练可以获得最佳性能,但是MetaAI发现,80亿参数规模的模型训练数据增长到15万亿tokens依然可以获得log线性增长!因此,数据可以说依然是王道。
Meta公司一直是全球拥有显卡最多的公司。在Llama1论文发布的时候,大家就发现,Meta训练Llama1模型可能花费了几百万上千万美金。原因是650亿参数的Llama1模型训练了102万个GPU小时,按照公有云A100租赁的价格打折计算,这个成本也是几百万美金。
到了Llama3模型这里,训练成本的增长更为恐怖,Llama3-8B模型的训练时长比650亿参数规模的Llama1模型还长。结果如下:
上图对比的是Llama系列70亿参数规模模型和700亿参数规模模型的训练时长,单位是百万个GPU小时。忽略Llama3可能是H100的显卡,这个训练时长增长太恐怖了。而这些也是Llama3训练成本非常高的原因之一。以700亿参数规模的Llama3-70B为例,训练时长是640万个GPU小时。以AWS的p4d.24xlarge实例计算,包含8个A100,按需付费8卡是32.77美元一个小时,640万个GPU小时是80万台这样的机器,按需付费的价格就是80万×32.77美元=2621.6万美元,假设MetaAI自己用自己的硬件,成本是一半的话,训练700亿参数规模的Llama3-70B就是1300多万美元,十分之一的话那就是262万美元!成本十分昂贵!
最后,我们用图表展示一下三代不同Llama系列在综合理解评测基准MMLU、数学推理GSM8K以及代码能力HumanEval的评测结果。不用说,Llama3相比Llama2的提升应该是比Llama2相比Llama1的提升要高的多的。
由于Llama1没有公布GSM8K和HumanEval的评测结果,所以没有展示了。
Llama3-70B模型目前已经是Chatbot Arena大模型匿名评分最高的开源模型了。在英文的分项测试甚至超过了Claude-Opus模型,十分强悍。
数据来源:https://www.datalearner.com/ai-models/leaderboard/lm-sys-chat-bot-arena-leaderboard
未来,如果4000亿参数规模的Llama3-400B也开源的话,那无疑是给闭源模型企业一颗巨大的炸弹。
Llama3的详细介绍参考:https://www.datalearner.com/blog/1051713454866102Llama3在大模型匿名竞技场的得分排行榜:https://www.datalearner.com/ai-models/leaderboard/lm-sys-chat-bot-arena-leaderboardLlama3手动部署教程:https://www.datalearner.com/llm-tutorials/pretrained-model-tutorials/llama3-8b-instruct-deployment-with-4090-in-one-py-file
Llama3相比较前两代的模型(Llama1和Llama2)有哪些升级?几张图简单总结Llama3的训练成本、训练时间、模型架构升级等情况
开源王者!全球最强的开源大模型Llama3发布!15万亿数据集训练,最高4000亿参数,数学评测超过GPT-4,全球第二!
重磅Llama3即将发布!目前已知有80亿和700亿参数两个版本,其中Llama3-8B-Instruct已经上架微软云服务市场!
阿里巴巴开源第二代大语言模型Qwen2系列,最高参数规模700亿,评测结果位列开源模型第一,超过了Meta开源的Llama3-70B!
让大模型支持更长的上下文的方法哪个更好?训练支持更长上下文的模型还是基于检索增强?
大模型如何使用长上下文信息?斯坦福大学最新论文证明,你需要将重要的信息放在输入的开始或者结尾处!
文本理解与代码补全都很强!Salesforce开源支持8K上下文输入的大语言模型XGen-7B!
一张图总结大语言模型的技术分类、现状和开源情况
国产开源中文大语言模型再添重磅玩家:清华大学NLP实验室发布开源可商用大语言模型CPM-Bee
tokens危机到来该怎么办?新加坡国立大学最新研究:为什么当前的大语言模型的训练都只有1次epoch?多次epochs的大模型训练是否有必要?
Falcon-40B:截止目前最强大的开源大语言模型,超越MetaAI的LLaMA-65B的开源大语言模型
AI大模型领域的热门技术——Embedding入门介绍以及为什么Embedding在大语言模型中很重要
大语言模型训练之前,数据集的处理步骤包含哪些?以LLaMA模型的数据处理pipeline(CCNet)为例
Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
回归模型中的交互项简介(Interactions in Regression)
贝塔分布(Beta Distribution)简介及其应用
矩母函数简介(Moment-generating function)
使用R语言进行K-means聚类并分析结果
普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
深度学习技巧之Early Stopping(早停法)
H5文件简介和使用
手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署
Wishart分布简介