模型详细情况和参数
Whisper是由Open AI训练并开源的语音识别模型,它在英语语音识别方面接近人类水平的鲁棒性和准确性。 Whisper是根据从网络上收集的680,000小时的多语言和多任务监督数据进行训练的。
结果表明,使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术语言的稳健性。此外,它还能实现多种语言的转录,以及从这些语言翻译成英语。OpenAI开放了模型和推理代码,作为建立有用的应用程序和进一步研究稳健语音处理的基础。
Whisper架构是一个简单的端到端方法,作为一个编码器-解码器转化器实现。输入的音频被分割成30秒的小块,转换为对数梅尔频谱图,然后传入编码器。解码器被训练来预测相应的文字说明,其中夹杂着特殊的标记,指导单一模型执行语言识别、短语级别的时间戳、多语言语音转录和英式语音翻译等任务。
其他现有的方法经常使用较小的、更紧密配对的音频-文本训练数据集,或使用广泛但无监督的音频预训练。由于Whisper是在一个大型和多样化的数据集上训练的,并没有针对任何特定的数据集进行微调,它并没有击败专门从事LibriSpeech性能的模型,这是一个著名的语音识别竞争基准。然而,当我们在许多不同的数据集上测量Whisper的零散性能时,我们发现它比那些模型要稳健得多,犯的错误要少50%。
Whisper的音频数据集中约有三分之一是非英语,它被交替赋予用原文转录或翻译成英语的任务。我们发现这种方法在学习语音到文本的翻译方面特别有效,并且在CoVoST2到英语翻译的零散过程中优于有监督的SOTA。
开源的模型
目前,OpenAI开源了五个预训练结果的模型,其中四个是纯英语的,提供了速度与准确性的权衡结果。
大小 | 参数数量 | 仅支持英语 | 运行需要的内存大小 | 相对速度 |
---|---|---|---|---|
tiny | 3900万 | Y | ~1 GB | ~32x |
base | 7400万 | Y | ~1 GB | ~16x |
small | 2.44亿 | Y | ~2 GB | ~6x |
medium | 7.69亿 | Y | ~5 GB | ~2x |
large | 15.5亿 | N | ~10 GB | 1x |