模型发布时间: 2022-09-21
模型发布机构: OpenAI
模型所属类型: 多模态学习
Whisper是由OpenAI在2022年开源的ASR(Automatic Speech Recognition)模型,它在英语语音识别方面接近人类水平的鲁棒性和准确性。
它是在从互联网收集的68万小时的多语种和多任务监督数据上训练的。使用如此大量和多样化的数据集可提高识别口音、背景噪声和技术语言的鲁棒性。此外,它还能够转录多种语言,并将这些语言翻译成英语。
这也是OpenAI今年为数不多的开源模型。