Name: GPT-4o-mini-TTS
Price: 不开源
Rating: 5

GPT-4o-mini-TTS是OpenAI在2025年3月21日发布的新一代语音合成大模型，基于GPT-4o-mini架构训练。GPT-4o-mini-TTS在文本转语音技术中引入了全新的定制化水平，使开发者能够通过自然语言对模型进行指令控制。例如，“像疯狂科学家一样说话”或“使用一种宁静的声音，就像一位正念导师”，从而生成细腻且听起来逼真的语音。这种可控性是该模型的核心功能，能够为特定场景提供定制化的语音体验，例如：

客户服务：语音可以传达歉意或同理心，提升用户互动体验。
创意叙述：独特的语音风格可以增强叙事吸引力，吸引内容创作者和教育工作者。

然而，该模型仅限于使用人工预设的语音，以应对语音模仿的担忧并确保符合伦理标准。其定价为每100万tokens文本输入价格0.60 美元，每100万音频输出tokens为12.00 美元（约合每分钟 0.015 美元），实现了成本与先进功能的平衡。该模型基于 GPT-4o-mini 架构，并通过先进的蒸馏和强化学习技术进一步增强，适用于需要动态语音输出的应用场景。

gpt-4o-mini-TTS

模型基本信息

是否支持推理过程

最高上下文输入长度

最长输出结果

模型类型

发布时间

模型预文件大小

开源和体验地址

代码开源状态

预训练权重开源

GitHub 源码

Hugging Face

在线体验

官方介绍与博客

官方论文

DataLearnerAI博客

API接口信息

接口速度（满分5分）

接口价格

输入价格:

输出价格:

输入支持的模态

文本

图片

视频

音频

Embedding（向量）

输出支持的模态

文本

图片

视频

音频

Embedding（向量）

gpt-4o-mini-TTS模型在各大评测榜单的评分

发布机构

模型介绍

关注DataLearnerAI公众号