Op

OpenAI o3-mini (high)

推理大模型

OpenAI o3-mini (high)

发布时间: 2025-01-31

模型参数(Parameters)
未披露
最高上下文长度(Context Length)
128k
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

最高上下文输入长度

128k tokens

最长输出结果
未披露
模型类型

推理大模型

发布时间

2025-01-31

模型预文件大小
暂无数据

开源和体验地址

代码开源状态
预训练权重开源
不开源 - 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

OpenAI o3-mini (high)模型在各大评测榜单的评分

评测基准名称
MMLU
(知识问答)
评测结果:86.9
评测基准名称
HumanEval
(代码生成)
评测结果:97.6
评测基准名称
MATH
(数学推理)
评测结果:97.9
评测基准名称
GPQA Diamond
(常识推理)
评测结果:79.7
评测基准名称
SimpleQA
(真实性评估)
评测结果:13.8
评测基准名称
SWE-bench Verified
(代码生成)
评测结果:49.3
评测基准名称
MATH-500
(数学推理)
评测结果:97.9
评测基准名称
AIME 2024
(数学推理)
评测结果:87.0
评测基准名称
LiveCodeBench
(代码生成)
评测结果:69.5

发布机构

模型介绍

OpenAI o3 mini是OpenAI发布的第二代推理大模型中最小规模的版本。第一代推理大模型是o1,跳过了o2版本号的原因可能是o2与英国电信运营商的品牌冲突。


o3 mini总共分为三个版本,o3-mini low,o3-mini medium 和o3-mini high。本模型为其中最强的版本,即o3-mini high。ChatGPT中免费用户使用的是o3-mini meidum版本。Plus用户可以选择这个版本。同时,根据测试,这个版本的模型也比之前的o1更强。


不同版本的评测结果如下:

Category01-mini03-mini (low)03-mini (medium)03-mini (high)
General85.284.985.986.9
Math90.095.897.397.9
Factuality89.955.190.892.0
Eval76.013.013.413.8



ModelReasoning LevelAverageLCB GenerationCode Completion
o3-minilow0.6180.7560.48
o3-minimedium0.7230.8460.60
o3-minihigh0.8460.8200.833
o1-minihigh0.6740.6280.72


关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat