模型详细情况和参数
百川智能发布的第三代大语言模型,与此前两代百川模型最大的不同是这个版本的模型完全闭源。官方只公布了内部测试的成绩结果,没有其它额外信息。
官方公布的baichuan3模型与其它模型在文本理解方面的评测对比结果:
模型 | CMMLU | GAOKAO | MMLU | AGI-Eval | BBH | ARC-E | ARC-C |
---|---|---|---|---|---|---|---|
Baichuan 3 | 78.12 | 79.42 | 81.69 | 73.16 | 84.56 | 86.11 | 85.58 |
GPT-4 | 70.33 | 65.99 | 86.40 | 63.42 | 86.70 | 95.40 | 93.60 |
GPT-3.5 | 54.06 | 46.90 | 68.54 | 45.93 | 70.10 | 88.90 | 83.70 |
Baichuan3在数学逻辑推理和代码生成方面的评测结果:
模型 | GSM8K | MATH | Human Eval | MBPP | Crux-l | Crux-O |
---|---|---|---|---|---|---|
Baichuan 3 | 88.17 | 49.20 | 70.12 | 68.20 | 57.88 | 58.38 |
GPT-4 | 92.00 | 52.90 | 67.00 | 63.60 | 69.80 | 68.70 |
GPT-3.5 | 57.10 | 13.96 | 52.44 | 61.40 | 49.00 | 49.40 |
根据DataLearnerAI收集的大模型评测数据,Baichuan3的文本理解、数学推理上基本上仅次于GPT-4和Google Gemini Ultra,排名第三,比前段时间智谱AI发布的GLM4略高。
数据来源: https://www.datalearner.com/ai-models/llm-evaluation
在编程领域的得分比GLM4略低:
数据来源: https://www.datalearner.com/ai-models/llm-coding-evaluation