Whisper JAX - Whisper JAX

模型详细情况和参数

Whisper JAX

模型全称
Whisper JAX
模型简称
Whisper JAX
模型类型
发布日期
2023-04-14
预训练文件大小
10GB
模型参数数量(亿)
15.5
代码是否开源
预训练结果是否开源
预训练结果商用授权情况
模型GitHub链接
暂无
模型HuggingFace链接
暂无
发布论文名(官方博客名)
暂无
论文地址(官方博客地址)
暂无
基础模型
...
ControlNet
查看详情
发布机构

Whisper JAX 简介

Whisper是由OpenAI开源的语言识别模型,Whisper JAX则是JAX的实现版本。主要基于? Hugging Face Transformers的Whisper实现。与OpenAI的PyTorch代码相比,Whisper JAX运行速度快了70多倍,是目前最快的Whisper实现。

JAX代码兼容CPU、GPU和TPU,并且可以作为独立的运行程序(参见Pipeline Usage)或推理端点(参见Creating an Endpoint)运行。


Whisper的Flax权重文件与JAX版本的预训练结果文件完全兼容,各个版本的信息和能力如下:

模型size参数数量是否仅支持英文多语言能力
tiny3900万YY
base7400万YY
small2.44亿YY
medium7.69亿YY
large15.5亿NY
large-v215.5亿NY


官方公开的是PyTorch版本,需要先使用from_pt来将其转换成Flax版本。各个不同版本的Whisper对比结果:


Whisper发布者代码框架后端硬件1分钟10分钟1个小时
OpenAIPyTorchGPU13.8108.31001
TransformersPyTorchGPU4.5420.2126.1
Whisper JAXJAXGPU1.729.3875.3
Whisper JAXJAXTPU0.452.0113.8

上表中的1分钟、10分钟和1个小时分别代表不同模型转换这么长时间语音所需要的推断时间,单位是秒。可以看到,如果都是用GPU的话,Whisper一个小时的语音转换只要75秒,而OpenAI官方的模型需要1001秒,也就是十几分钟!如果使用TPU,那么1个小时的语音转换只要13.8秒!不得不说,谷歌全家桶的性能非常赞!


Whisper JAX模型的GitHub开源地址: https://github.com/sanchit-gandhi/whisper-jax 



欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

Whisper JAX所属的领域
Whisper JAX相关的任务