模型详细情况和参数
评测名称 | 评测能力方向 | 评测结果 |
---|
OpenAI o3 mini是OpenAI发布的第二代推理大模型中最小规模的版本。第一代推理大模型是o1,跳过了o2版本号的原因可能是o2与英国电信运营商的品牌冲突。
o3 mini总共分为三个版本,o3-mini low,o3-mini medium 和o3-mini high。本模型为其中最低规模的版本,即o3-mini low。这个版本按照官网的说法可能只有API接口,ChatGPT中免费用户使用的是o3-mini meidum版本。
不同版本的评测结果如下:
Category | 01-mini | 03-mini (low) | 03-mini (medium) | 03-mini (high) |
---|---|---|---|---|
General | 85.2 | 84.9 | 85.9 | 86.9 |
Math | 90.0 | 95.8 | 97.3 | 97.9 |
Factuality | 89.9 | 55.1 | 90.8 | 92.0 |
Eval | 76.0 | 13.0 | 13.4 | 13.8 |
Model | Reasoning Level | Average | LCB Generation | Code Completion |
o3-mini | low | 0.618 | 0.756 | 0.48 |
o3-mini | medium | 0.723 | 0.846 | 0.60 |
o3-mini | high | 0.846 | 0.820 | 0.833 |
o1-mini | high | 0.674 | 0.628 | 0.72 |