模型详细情况和参数
评测名称 | 评测能力方向 | 评测结果 |
---|---|---|
MMLU | 知识问答 | 88.6 |
MMLU Pro | 知识问答 | 73.4 |
GSM8K | 数学推理 | 0.0 |
HumanEval | 代码生成 | 89.0 |
MBPP | 代码生成 | 88.6 |
TruthfulQA | 真实性评估 | 0.0 |
MATH | 数学推理 | 73.9 |
BBH | 综合评估 | 0.0 |
GPQA Diamond | 常识推理 | 49.0 |
MetaAI开源的全球最大规模参数的大语言模型,4050亿参数的Llama3.1-405B。这是指令优化版本。