gp

gpt-4o-mini-TTS

语音大模型

GPT-4o-mini-TTS

发布时间: 2025-03-20

模型参数(Parameters)
未披露
最高上下文长度(Context Length)
4K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

最高上下文输入长度

4K tokens

最长输出结果
未披露
模型类型

语音大模型

发布时间

2025-03-20

模型预文件大小

0

开源和体验地址

代码开源状态
预训练权重开源
不开源 - 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

API接口信息

接口速度
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

gpt-4o-mini-TTS模型在各大评测榜单的评分

发布机构

模型介绍

GPT-4o-mini-TTS是OpenAI在2025年3月21日发布的新一代语音合成大模型,基于GPT-4o-mini架构训练。GPT-4o-mini-TTS在文本转语音技术中引入了全新的定制化水平,使开发者能够通过自然语言对模型进行指令控制。例如,“像疯狂科学家一样说话”或“使用一种宁静的声音,就像一位正念导师”,从而生成细腻且听起来逼真的语音。这种可控性是该模型的核心功能,能够为特定场景提供定制化的语音体验,例如:

  • 客户服务:语音可以传达歉意或同理心,提升用户互动体验。
  • 创意叙述:独特的语音风格可以增强叙事吸引力,吸引内容创作者和教育工作者。


然而,该模型仅限于使用人工预设的语音,以应对语音模仿的担忧并确保符合伦理标准。其定价为每100万tokens文本输入价格0.60 美元,每100万音频输出tokens为12.00 美元(约合每分钟 0.015 美元),实现了成本与先进功能的平衡。该模型基于 GPT-4o-mini 架构,并通过先进的蒸馏和强化学习技术进一步增强,适用于需要动态语音输出的应用场景。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat