数据学习
登录
注册
原创博客
期刊会议
学术世界
期刊出版社
领域期刊
SCI/SCIE/SSCI/EI简介
期刊列表
会议列表
所有期刊分区
学术期刊信息检索
JCR期刊分区查询
CiteScore期刊分区查询
中科院期刊分区查询
领域期刊分区
管理 - UTD24期刊列表
管理 - AJG(ABS)期刊星级查询
管理 - FMS推荐期刊列表
计算机 - CCF推荐期刊会议列表
高校期刊分区
南大核心(CSSCI)
合工大小核心
合工大大核心
AI资源仓库
AI领域与任务
AI研究机构
AI学术期刊
AI论文快讯
AI数据集
AI开源工具
AI模型
AI模型概览
预训练模型
数据推荐
网址导航
我的网址导航
程序员必备网站
OpenAI世界最强的语音识别预训练模型WhisperV2即将来临
标签:
#OpenAI#
#语音识别#
#预训练#
时间:2022/12/07 21:51:41
作者:小木
Whisper是由Open AI训练并开源的语音识别模型,它在英语语音识别方面接近人类水平的鲁棒性和准确性。该模型于2022年9月21日发布之后引起了广大的关注。由于模型的准确性太过惊人,大家已经认为可以直接用于视频的配音制作了。而今天有人发现Whisper的GitHub上有了一个新的提交记录,显示Whisper V2版本即将来临。

上图显示,V2版本的Whisper模型于第一个版本的结构一样,但是加了正则,且训练的迭代次数更多。这个模型的论文也将很快发布!由于第一版的效果已经很好,这第二版的提升十分令人期待! Whisper是一个自动语音识别(ASR)系统,它是在从网络上收集的680,000小时的多语言和多任务监督数据上训练出来的。我们表明,使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术语言的稳健性。此外,它还能实现多种语言的转录,以及从这些语言翻译成英语。我们正在开放模型和推理代码,作为建立有用的应用程序和进一步研究稳健语音处理的基础。 关于Whisper的介绍:https://www.datalearner.com/ai-resources/pretrained-models/Whisper
相关博客
最热博客