gp

gpt-4o-transcribe

语音大模型

GPT-4o-Transcribe

发布时间: 2025-03-20

模型参数(Parameters)
未披露
最高上下文长度(Context Length)
4K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

最高上下文输入长度

4K tokens

最长输出结果
未披露
模型类型

语音大模型

发布时间

2025-03-20

模型预文件大小

0

开源和体验地址

代码开源状态
预训练权重开源
不开源 - 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验

API接口信息

接口速度
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

gpt-4o-transcribe模型在各大评测榜单的评分

发布机构

模型介绍

GPT-4o-Transcribe是OpenAI在2025年3月21日发布的自动语音识别的大模型,用于替换2年前OpenAI开源的Whisper系列自动语音识别模型,它是基于GPT-4o架构构建,识别错误率相比此前模型更低,在英文的错字率(word error rate)仅有2.46%


GPT-4o-Transcribe支持100多种语言的自动语音识别,支持噪音消除基于语义的语音分割(也就是根据语音的语义来进行语音分割,降低识别错误率)。


GPT-4o-Transcribe在大量的高质量、多样化的语音数据集上训练,引入来强化学习和midtraining技术来处理具有挑战性的场景。


GPT-4o-Transcribe不开源,目前仅通过API提供,每100万语音输入的tokens需要6美元(大约一分钟0.006分钱)。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat