Llama3模型升级解析：训练数据15万亿，训练时长640万GPU小时，评测基准大幅提高

<h2 id="h2-llama3-"><a name="Llama3系列模型的总结" class="reference-link"></a><span class="header-link octicon octicon-link"></span>Llama3系列模型的总结</h2><p>第一代和第二代的Llama模型都包含了四个不同参数规模的版本，其中最小的模型参数规模在70亿，往上分别有130亿、340亿和700亿（第一代最高的是650亿）。而此次发布的第三代Llama3模型，目前公开的只有80亿参数规模版本和700亿版本。而根据透露，最高的参数版本是4000亿参数规模的模型。只是目前还在训练中。</p>
<h2 id="h2-llama3-"><a name="Llama3模型架构的升级" class="reference-link"></a><span class="header-link octicon octicon-link"></span>Llama3模型架构的升级</h2><p>首先是模型架构相关的升级。目前，官方没有公开Llama3的技术报告或者论文细节，在官方博客中只给出了一些简单的指标。</p>
<p>关于Llama3的模型架构，应该是没有本质变化，官方的说法是：</p>
<blockquote>
<p>根据我们的设计理念，我们在 Llama 3 中选择了一个相对标准的纯解码器（decoder-only）变压器架构。</p>
</blockquote>
<p>因此，模型架构基本没变，但是增加了Group Query Attention（分组查询注意力，GQA），这项技术最大的特点是可以加速推理，这也是我们实测中感受到的，Llama3-8B-Instruct在4090上的速度飞快！</p>
<p>剩余的模型相关的架构，这里我们对比的是上下文长度和词汇表。</p>
<h3 id="h3-llama-"><a name="Llama系列的上下文长度一直在增长" class="reference-link"></a><span class="header-link octicon octicon-link"></span>Llama系列的上下文长度一直在增长</h3><p>上下文长度每一代都翻倍了，在Llama3中，训练的时候用的就是8K上下文：</p>
<p><img src="https://www.datalearner.com/resources/blog_images/c44fdb6c-3963-478a-8348-308bfa0019c2.png" alt="Llama系列模型上下文长度对比"></p>
<p>从上图可以看到，Llama三代模型的上下文长度分别是2K、4K和8K，虽然Llama3训练是8K上下文，但是按照目前业界的技术，应该是可以继续拓展到更长上下文的。而官方也说过，未来Llama3会有更长上下文的版本。</p>
<h3 id="h3-llama3-"><a name="Llama3模型的词汇表大幅提高" class="reference-link"></a><span class="header-link octicon octicon-link"></span>Llama3模型的词汇表大幅提高</h3><p>在模型架构中另一个值得注意的是词汇表的大幅提高。在Llama1和Llama2中，MetaAI的词汇表都是32K大小，这可能与前两代模型的训练数据差距不大有关。而第三代的Llama3模型的词汇表大小变为128K，也就是说它的tokenizer有了较大的变化。</p>
<p><img src="https://www.datalearner.com/images/llama3-vocab-size.png" alt="Llama系列模型词汇表大小对比"></p>
<p>更大的词汇表意味着更强的语义表达能力，也是支持更多语言的一个基础。</p>
<h2 id="h2-llama3-"><a name="Llama3模型的训练过程的升级" class="reference-link"></a><span class="header-link octicon octicon-link"></span>Llama3模型的训练过程的升级</h2><p>训练过程的升级我们主要看训练时间和训练数据的变化。此前，业界一直说大模型的训练成本在下降。但是从Llama3的变化看，下降的是单位训练成本，但是大模型总的训练成本其实在大幅增长。 </p>
<h3 id="h3-llama3-"><a name="Llama3模型的训练数据大幅增长" class="reference-link"></a><span class="header-link octicon octicon-link"></span>Llama3模型的训练数据大幅增长</h3><p>Llama3的训练数据达到了15万亿，比第一代和第二代Llama模型加在一起还多好几倍。如下图所示，第一代的小一点的模型训练数据是1万亿tokens，而较大的650亿规模的模型训练数据是1.4万亿tokens。到了第二代Llama2系列，训练数据都增长到了2万亿tokens。</p>
<p><img src="https://www.datalearner.com/images/llama3-training-data.png" alt="Llama系列模型训练数据对比"></p>
<p>可以看到，第三代Llama3训练数据大幅增加，几乎也是目前市场上训练数据最多的一个模型了。这里有一点也值得提一下，DeepMind发表过一个非常著名的论文，就是关于Chinchilla模型的论文，里面提到了训练数据对大模型性能的影响。根据论文发现的规律，80亿参数规模的模型，用2000亿tokens数据集训练可以获得最佳性能，但是MetaAI发现，80亿参数规模的模型训练数据增长到15万亿tokens依然可以获得log线性增长！因此，数据可以说依然是王道。</p>
<h3 id="h3-llama3-"><a name="Llama3模型的训练时长大幅增加" class="reference-link"></a><span class="header-link octicon octicon-link"></span>Llama3模型的训练时长大幅增加</h3><p>Meta公司一直是全球拥有显卡最多的公司。在Llama1论文发布的时候，大家就发现，Meta训练Llama1模型可能花费了几百万上千万美金。原因是650亿参数的Llama1模型训练了102万个GPU小时，按照公有云A100租赁的价格打折计算，这个成本也是几百万美金。</p>
<p>到了Llama3模型这里，训练成本的增长更为恐怖，Llama3-8B模型的训练时长比650亿参数规模的Llama1模型还长。结果如下：</p>
<p><img src="https://www.datalearner.com/images/llama3-training-time.png" alt="Llama系列模型训练时长对比"></p>
<p>上图对比的是Llama系列70亿参数规模模型和700亿参数规模模型的训练时长，单位是百万个GPU小时。忽略Llama3可能是H100的显卡，这个训练时长增长太恐怖了。而这些也是Llama3训练成本非常高的原因之一。以700亿参数规模的Llama3-70B为例，训练时长是640万个GPU小时。以AWS的p4d.24xlarge实例计算，包含8个A100，按需付费8卡是32.77美元一个小时，640万个GPU小时是80万台这样的机器，按需付费的价格就是80万×32.77美元=2621.6万美元，假设MetaAI自己用自己的硬件，成本是一半的话，训练700亿参数规模的Llama3-70B就是1300多万美元，十分之一的话那就是262万美元！成本十分昂贵！</p>
<h2 id="h2-llama3-"><a name="Llama3的评测基准大幅提高" class="reference-link"></a><span class="header-link octicon octicon-link"></span>Llama3的评测基准大幅提高</h2><p>最后，我们用图表展示一下三代不同Llama系列在综合理解评测基准MMLU、数学推理GSM8K以及代码能力HumanEval的评测结果。不用说，Llama3相比Llama2的提升应该是比Llama2相比Llama1的提升要高的多的。</p>
<p><img src="https://www.datalearner.com/resources/blog_images/57e087c6-aaa1-44a1-8e95-65894f924b8c.png" alt="Llama系列模型MMLU评测结果对比"></p>
<p>由于Llama1没有公布GSM8K和HumanEval的评测结果，所以没有展示了。</p>
<h2 id="h2-llama3-"><a name="Llama3总结" class="reference-link"></a><span class="header-link octicon octicon-link"></span>Llama3总结</h2><p>Llama3-70B模型目前已经是Chatbot Arena大模型匿名评分最高的开源模型了。在英文的分项测试甚至超过了Claude-Opus模型，十分强悍。</p>
<p><img src="https://www.datalearner.com/resources/blog_images/e02a829b-2a23-473e-8219-2e4da83d692b.png" alt="Llama3-70B在Chatbot Arena的评测结果"></p>
<p>数据来源：<a href="https://www.datalearner.com/ai-models/leaderboard/lm-sys-chat-bot-arena-leaderboard">https://www.datalearner.com/ai-models/leaderboard/lm-sys-chat-bot-arena-leaderboard</a></p>
<p>未来，如果4000亿参数规模的Llama3-400B也开源的话，那无疑是给闭源模型企业一颗巨大的炸弹。</p>
<p>Llama3的详细介绍参考：<a href="https://www.datalearner.com/blog/1051713454866102">https://www.datalearner.com/blog/1051713454866102</a><br>Llama3在大模型匿名竞技场的得分排行榜：<a href="https://www.datalearner.com/ai-models/leaderboard/lm-sys-chat-bot-arena-leaderboard">https://www.datalearner.com/ai-models/leaderboard/lm-sys-chat-bot-arena-leaderboard</a><br>Llama3手动部署教程：<a href="https://www.datalearner.com/llm-tutorials/pretrained-model-tutorials/llama3-8b-instruct-deployment-with-4090-in-one-py-file">https://www.datalearner.com/llm-tutorials/pretrained-model-tutorials/llama3-8b-instruct-deployment-with-4090-in-one-py-file</a></p>

Llama3模型升级解析：训练数据15万亿，训练时长640万GPU小时，评测基准大幅提高

欢迎大家关注DataLearner官方微信，接受最新的AI技术推送

相关博客

最热博客