Llama3是MetaAI开源的最新一代大语言模型,基于15万亿tokens的数据集训练,是最强的开源大模型
模型发布时间: 2024-04-18
模型发布机构: Facebook AI研究实验室
模型所属类型: 自然语言处理
模型官方地址: https://ai.meta.com/blog/meta-llama-3/
Llama系列基座模型的评测对比
70亿参数规模Llama系列大模型的评测对比
评测基准 | LLaMA-7B | Llama2-7B | Llama2-7B-Ins | Llama3-8B | Llama3-8B-Ins |
---|---|---|---|---|---|
MMLU (5-shot) | 35.1 | 45.7 | 34.1 | 66.6 | 68.4 |
AGI Eval | 23.9 | 29.3 | 45.9 | ||
BIG-Bench Hard | 38.1 | 61.1 | |||
CommonSenseQA | 57.6 | 72.6 | |||
Winogrande | 70.1 | 73.3 | 76.1 | ||
ARC-Challenge | 47.6 | 53.7 | 78.6 | ||
GPQA (0-shot) | 21.7 | 34.2 | |||
HumanEval (0-shot) | 7.9 | 62.2 | |||
GSM-8K (8-shot, CoT) | 25.7 | 79.6 | |||
MATH (4-shot, CoT) | 3.8 | 30.0 |
700亿参数规模的Llama系列大模型评测对比
评测基准 | LLaMA-65B | Llama2-70B | Llama2-70B-Ins | Llama3-70B | Llama3-70B-Ins |
---|---|---|---|---|---|
MMLU (5-shot) | 63.4 | 69.7 | 52.9 | 79.5 | 82.0 |
AGI Eval | 47.6 | 54.8 | - | 63 | - |
BIG-Bench Hard | - | 65.7 | - | 81.3 | - |
CommonSenseQA | - | 78.7 | - | 83.8 | - |
Winogrande | 77.0 | 81.8 | - | 83.1 | - |
ARC-Challenge | 56.0 | 85.3 | - | 93.0 | - |
GPQA (0-shot) | - | - | 21.0 | - | 39.5 |
HumanEval (0-shot) | - | - | 25.6 | - | 81.7 |
GSM-8K (8-shot, CoT) | - | - | 57.7 | - | 93.0 |
MATH (4-shot, CoT) | - | - | 11.6 | - | 50.4 |
三代Llama模型的训练时长明显增加:
参数规模/版本 | LLaMA-1 | Llama-2 | Llama-3 |
7B | 8.2432 | 18.432 | 130 |
70B | 102.2362 | 172.032 | 640 |