MetaAI发布语音识别错误率是OpenAI的Whisper模型的一半且支持1107种语言的ASR模型:MMS
今天,Meta的首席AI科学家Yann LeCun在推特上宣布了MetaAI的最新研究成果:MMS,一个支持1107种语言的自动语音识别模型和语音合成模型,该模型自动语音识别的单词错误率只有OpenAI开源的Whisper的一半!但是支持的语言却有1107种,是Whisper的11倍!代码与预训练结果已开源,不过不可以商用哦~

本文将介绍MMS的原理,主要说明在缺少大规模标注数据集的情况下,MetaAI是如何实现支持这么多语言的模型的。MMS模型卡信息:https://www.datalearner.com/ai-models/pretrained-models/MMS
本文的内容如下
MMS模型简介
MMS模型全称Massively Multilingual Speech,是MetaAI发布的一种语音模型,该模型支持自动语音识别(Auto Speech Recognition,ASR)和语音合成(Text-to-Speech,TTS)两种任务。
目前全球共有7000多种语言,但是现有的语音相关的模型只能覆盖其中的一百多种。由于缺少数据的支持,大部分语言的语音识别和合成都十分困难。
而MetaAI想到了一个好方法,就是利用宗教文本的录音数据,如圣经。这些文本已经被翻译成许多不同的语言,并且这些翻译的音频录音是公开可用的。这种方法使得MMS模型能够覆盖超过4000种语言。
MMS模型的原理和技术方案
MMS(Massively Multilingual Speech)模型是的目标是将语音技术从大约100种语言扩展到超过1000种语言。为了实现这个目标,MMS模型采用了一种新的数据集和wav2vec 2.0模型的结合。
wav2vec 2.0是Facebook AI的一个自我监督学习的先驱工作,它可以在无标签数据上进行训练。在wav2vec 2.0的帮助下,MMS模型能够利用大量的无标签音频数据进行训练。
在训练过程中,MMS模型会学习如何正确地识别和“理解”音频数据,从而能够识别出超过4000种语言,并能够以1100多种语言进行语音合成(文本转语音)。
MMS创建的语音识别和语音合成相关的数据集
在这项工作中,MetaAI创建了好几个数据,主要包括MMS-lab、MMS-lab-U以及MMS-unlab。
数据集名称 | 数量 | 分类 | 覆盖的语言数量 | 描述 |
---|---|---|---|---|
MMS-lab | 4.47万个小时 | 语音-文本对 | 1107种语言 | 语音识别与合成都可以用到 |
MMS-lab-U | 5.5万个小时 | 音频录音 | 1362种语言 | 无标注语音数据集 |
MMS-unlab | 0.77万个小时 | 音频录音 | 3809种语言 | 无标注数据集,用来做预训练和语言识别 |
这些数据集与现有的语音类的数据集比较如下:

可以看到,不论是支持的语言数量和语音数据集的时长,MetaAI的MMS相关数据集都是很有优势的。
MMS模型的实验测试结果
MMS在自动语音识别(ASR)任务测试结果
首先,在自动语音识别(ASR)任务上,MMS与OpenAI的Whisper做了对比,结果如下:

可以看到,MMS支持的语言是Whisper的11倍,但是其单词错误率只有它的一半。使用的数据集也比Whisper少很多。
MMS在语言识别( language identification (LID))任务测试结果
接下来,MetaAI训练了一个语言识别的模型,对比了业界的开源模型SpeechBrain和AmberLet:

可以看到,虽然MMS的模型效果不是最优的,但是它可识别的语言数量是其它模型的40倍。不过这也是因为在部分语言上的效果不太好拉低的。
MMS在语音合成(TTS)任务上的效果
MetaAI也在语音合成任务上做了比较

从TTS和人类话语之间的CER的微小差异可以看出,MMS系统保留了大部分原始内容。
MOS分数也表明,与人类话语相比,MMS的系统声音质量较低,但在领域内数据上的差异并不是很大。不幸的是,正如前面提到的,由于FLEURS音频中的嘈杂语音,领域外的MOS分数受到了影响。因此,MetaAI得出结论,基于MMS-lab数据训练的TTS模型在领域外表现良好。
MMS模型的开源资源
一如既往的,作为AI开源领域的优秀课代表,本次MetaAI发布的MMS模型依然是开源的。并且开源资源相当丰富,包括模型的数据集、基础模型、ASR模型、语言识别模型预训练结果都有开源。但是,开源协议为CC-BY-NC 4.0 license,不可商用!
MMS预训练模型下载地址
预训练模型的开源地址:
模型名称 | 下载地址 |
---|---|
MMS-300M | download |
MMS-1B | download |
MMS微调训练模型下载地址
微调模型的开源地址:
模型名称 | 语言数量 | 数据集 | 模型下载地址 | 支持的语言下载链接 |
---|---|---|---|---|
MMS-1B:FL102 | 102 | FLEURS | download | download |
MMS-1B:L1107 | 1107 | MMS-lab | download | download |
MMS-1B-all | 1162 | MMS-lab + FLEURS + CV + VP + MLS |
download | download |
MMS语言识别模型下载地址
语言识别模型的开源地址:
语言数量 | 数据集 | 模型 | 字典 | 支持的语言下载链接 |
---|---|---|---|---|
126 | FLEURS + VL + MMS-lab-U + MMS-unlab | download | download | download |
256 | FLEURS + VL + MMS-lab-U + MMS-unlab | download | download | download |
512 | FLEURS + VL + MMS-lab-U + MMS-unlab | download | download | download |
1024 | FLEURS + VL + MMS-lab-U + MMS-unlab | download | download | download |
2048 | FLEURS + VL + MMS-lab-U + MMS-unlab | download | download | download |
4017 | FLEURS + VL + MMS-lab-U + MMS-unlab | download | download | download |
MMS语音合成模型下载地址
TTS的模型下载方法如下:
- 从https://dl.fbaipublicfiles.com/mms/tts/all-tts-languages.html 下载iso codes内容,里面包含1107中语言
- 找出你要识别的语言的iso代码,然后下载对应的预训练结果,每一个文件夹包含3个文件,pth预训练结果,json配置文件和vocab.txt的词汇表。下载方法如下:
# Examples:
wget https://dl.fbaipublicfiles.com/mms/tts/eng.tar.gz # English (eng)
wget https://dl.fbaipublicfiles.com/mms/tts/azj-script_latin.tar.gz # North Azerbaijani (azj-script_latin)
MMS模型总结
MetaAI发布的MMS模型优点明显,吸引力很多的关注和讨论,尽管有些人测试说结果没有他们说得好,但这也需要大家自己验证。总结一下MMS的信息:
- MMS模型是一个大规模多语言语音(Massively Multilingual Speech)项目,它能够识别超过4000种语言,并能够以1100多种语言进行语音合成(文本转语音)。
- MMS模型的创建是为了解决现有的语音识别模型只覆盖大约100种语言的问题。MMS模型通过结合wav2vec 2.0(自我监督学习的先驱工作)和一个新的数据集,这个数据集为1100多种语言提供了标签数据,为近4000种语言提供了无标签数据。
- MMS模型的训练数据来源于宗教文本的音频录音,例如圣经。这些文本已经被翻译成许多不同的语言,并且这些翻译的音频录音是公开可用的。
- MMS模型的性能超过了现有的模型,并且覆盖的语言数量是现有模型的10倍。与OpenAI的Whisper模型相比,使用MMS数据训练的模型的词错误率只有Whisper的一半,但MMS覆盖的语言数量是Whisper的11倍。
- MMS模型的代码和模型已经公开,以便研究社区可以在此基础上进行构建。
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
