Wh

Whisper

基础大模型

Whisper

发布时间: 2022-09-21

模型参数(Parameters)
15.5
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

最高上下文输入长度

2K tokens

最长输出结果
未披露
模型类型

基础大模型

发布时间

2022-09-21

模型预文件大小

2.9GB

开源和体验地址

代码开源状态
预训练权重开源
-
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

Whisper模型在各大评测榜单的评分

发布机构

模型介绍

Whisper是由Open AI训练并开源的语音识别模型,它在英语语音识别方面接近人类水平的鲁棒性和准确性。 Whisper是根据从网络上收集的680,000小时的多语言和多任务监督数据进行训练的。




结果表明,使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术语言的稳健性。此外,它还能实现多种语言的转录,以及从这些语言翻译成英语。OpenAI开放了模型和推理代码,作为建立有用的应用程序和进一步研究稳健语音处理的基础。


Whisper架构是一个简单的端到端方法,作为一个编码器-解码器转化器实现。输入的音频被分割成30秒的小块,转换为对数梅尔频谱图,然后传入编码器。解码器被训练来预测相应的文字说明,其中夹杂着特殊的标记,指导单一模型执行语言识别、短语级别的时间戳、多语言语音转录和英式语音翻译等任务。


其他现有的方法经常使用较小的、更紧密配对的音频-文本训练数据集,或使用广泛但无监督的音频预训练。由于Whisper是在一个大型和多样化的数据集上训练的,并没有针对任何特定的数据集进行微调,它并没有击败专门从事LibriSpeech性能的模型,这是一个著名的语音识别竞争基准。然而,当我们在许多不同的数据集上测量Whisper的零散性能时,我们发现它比那些模型要稳健得多,犯的错误要少50%。


Whisper的音频数据集中约有三分之一是非英语,它被交替赋予用原文转录或翻译成英语的任务。我们发现这种方法在学习语音到文本的翻译方面特别有效,并且在CoVoST2到英语翻译的零散过程中优于有监督的SOTA。


开源的模型

目前,OpenAI开源了五个预训练结果的模型,其中四个是纯英语的,提供了速度与准确性的权衡结果。


大小参数数量仅支持英语运行需要的内存大小相对速度
tiny3900万Y~1 GB~32x
base7400万Y~1 GB~16x
small2.44亿Y~2 GB~6x
medium7.69亿Y~5 GB~2x
large15.5亿N~10 GB1x



Foundation Model

ControlNet

ControlNet

View Details

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat