Op

OpenAI o1-mini

推理大模型

OpenAI o1-mini

发布时间: 2024-09-12

模型参数(Parameters)
未披露
最高上下文长度(Context Length)
128K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

最高上下文输入长度

128K tokens

最长输出结果
未披露
模型类型

推理大模型

发布时间

2024-09-12

模型预文件大小
暂无数据

开源和体验地址

代码开源状态
预训练权重开源
不开源 - 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

API接口信息

接口速度
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

OpenAI o1-mini模型在各大评测榜单的评分

评测基准名称
MMLU
(知识问答)
评测结果:85.2
评测基准名称
MMLU Pro
(知识问答)
评测结果:80.3
评测基准名称
HumanEval
(代码生成)
评测结果:92.4
评测基准名称
GPQA Diamond
(常识推理)
评测结果:60.0
评测基准名称
MATH-500
(数学推理)
评测结果:90.0
评测基准名称
AIME 2024
(数学推理)
评测结果:63.6
评测基准名称
LiveCodeBench
(代码生成)
评测结果:52.0

发布机构

模型介绍

OpenAI于2024年9月12日推出了o1-mini模型,这是一款专为STEM领域(科学、技术、工程和数学)设计的高性价比推理模型。作为o1-preview模型的经济高效替代方案,o1-mini在多个评估基准上表现出色。

主要特点:

  • STEM推理优化: o1-mini专注于需要强大推理能力的任务,特别是在数学和编程方面。在美国数学邀请赛(AIME)和Codeforces等基准测试中,o1-mini的表现几乎与o1-preview相当。
  • 成本与速度优势: o1-mini的成本比o1-preview低约80%,为需要强大推理能力但不需要广泛世界知识的应用提供了经济实惠的解决方案。此外,o1-mini具有更高的速率限制和更低的延迟,适合实时应用。

基准测试表现:

  • 数学能力: 在AIME测试中,o1-mini取得了70.0%的得分,接近o1的74.4%,远超o1-preview的44.6%。这一成绩相当于美国前500名高中生的水平。
  • 编程能力: 在Codeforces平台上,o1-mini的Elo评分达到1650,接近o1的1673,显著高于o1-preview的1258。这意味着o1-mini位于竞争性程序员的前86%。
  • STEM推理: 在MATH-500基准测试中,o1-mini在零样本链式思维提示下达到了90.0%的准确率,展现了强大的数学问题解决能力。

技术规格:

  • 上下文窗口: o1-mini支持128,000个token的输入上下文窗口,能够在单次请求中处理大量信息。
  • 输出容量: 模型每次请求最多可生成65,500个token,确保提供详细且全面的响应。

安全性与一致性:

o1-mini采用与o1-preview相同的对齐和安全技术。内部评估显示,与GPT-4o相比,o1-mini对越狱尝试的抵抗力提高了59%,确保遵守安全指南,降低生成有害内容的风险。

局限性:

尽管o1-mini在STEM相关任务中表现出色,但其世界知识范围比o1-preview等更大的模型要窄。这意味着在需要广泛事实信息的任务中,o1-mini可能不如这些更大的模型适用。

总的来说,OpenAI的o1-mini在性能和成本之间实现了良好平衡,是专注于STEM推理任务的应用的理想选择。其优化设计确保在其专业领域内高效处理任务,同时保持输出质量。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat