标签:AI,语音识别,自然语言处理,Whisper,OpenAI 时间:2023-11-26T22:01:47
Whisper是OpenAI提出的一种用于自动语音识别(ASR)和语音翻译的预训练模型。该模型在680k小时的标记数据上进行训练,展现出在多个数据集和领域的强大泛化能力,无需进行微调。
Whisper是基于Transformer的编码器-解码器模型,也称为序列到序列模型。它在1百万小时的弱标签音频和4百万小时的伪标签音频上进行了训练,这些数据是使用Whisper large-v2收集的。
模型在仅英语数据或多语言数据上进行训练。仅英语模型用于语音识别任务。多语言模型则同时用于语音识别和语音翻译。对于语音识别,模型预测与音频相同语言的转录文本。对于语音翻译,模型预测将音频翻译成不同语言的转录文本。
Whisper的预训练检查点有五种不同大小的配置,最小的四个配置在仅英语或多语言数据上进行训练。最大的检查点仅为多语言。所有十个预训练检查点都可以在Hugging Face Hub上找到。以下表格总结了检查点的信息,并提供了Hub上模型的链接:
Whisper large-v3模型在多种语言上的表现有所提升,与Whisper large-v2相比,错误率降低了10%到20%。研究表明,与许多现有的ASR系统相比,该模型在口音、背景噪音、专业术语的鲁棒性方面有所提高,同时在多种语言到英语的零样本翻译方面也显示出较好的性能;在语音识别和翻译的准确性上接近最先进水平。
然而,由于模型是在大规模嘈杂数据下以弱监督方式训练的,预测可能包含音频输入中实际未说出的文本(即幻觉)。我们假设这是因为模型在尝试预测音频中的下一个词时,也在尝试转录音频本身。
模型在不同语言上的表现不均,我们观察到在资源较少和/或发现性较低的语言上准确性较低,或者在我们拥有较少训练数据的语言上准确性较低。模型在特定语言的不同口音和方言上也表现出不同的性能,这可能包括不同性别、种族、年龄或其他人口统计标准的发言者之间的更高词错误率。完整的评估结果在随附的论文中呈现。
Whisper模型v3的发布,标志着在自动语音识别和语音翻译领域的一个重要进步。尽管存在一些局限性,如在低资源语言上的性能和生成重复文本的倾向,但其在多语言环境下的强大泛化能力和近乎最先进的性能仍值得关注。有关模型的详细信息和评估结果,可以在原始论文和OpenAI的GitHub仓库中找到。
原文链接:Robust Speech Recognition via Large-Scale Weak SupervisionGitHub链接:Whisper RepositoryHuggingface链接:Whisper on Hugging Face Hub
2022年必读的AI论文——100个AI领域被引最多的论文分析
2022年被引次数最多的AI论文列表
生成式AI平台的玩家都有哪些?
斯坦福2022年度AI指数报告简介及下载链接
亚马逊最新发布Feature Store简介
HuggingFace开源语音识别模型Distil-Whisper,基于OpenAI的Whisper-V2模型蒸馏,速度快6倍,参数小49%!
比OpenAI原始的Whisper快70倍的开源语音识别模型Whisper JAX发布!
OpenAI世界最强的语音识别预训练模型WhisperV2即将来临
自然语言处理中常见的字节编码对(Byte-Pair Encoding,BPE)简介
最新发布!基于推文(tweet)训练的NLP的Python库TweetNLP发布了!
自然语言处理中常见的10个任务简介及其资源
Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
回归模型中的交互项简介(Interactions in Regression)
贝塔分布(Beta Distribution)简介及其应用
矩母函数简介(Moment-generating function)
使用R语言进行K-means聚类并分析结果
普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
H5文件简介和使用
深度学习技巧之Early Stopping(早停法)
手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署
Wishart分布简介