来自Facebook的论文：SeamlessM4T—Massively Multilingual & Multimodal Machine Translation

MetaAI最新发布的语音转语音和语音转文字大模型。效果很好，介绍如下：

为了与我们开放科学的方法保持一致，我们将在CC BY-NC 4.0下公开发布SeamlessM4T，以允许研究人员和开发人员在这项工作的基础上再接再厉。我们还发布了SeamlessAlign的元数据，这是迄今为止最大的开放多模式翻译数据集，总共有27万小时的语音和文本对齐。我们使社区可以轻松地使用SONAR对自己的单语数据集执行挖掘，SONAR是一套完整的语音和文本句子编码器，以及我们的多模式数据处理和并行数据挖掘库。所有的研究进步都得到了我们的下一代序列建模库Fairseq2的支持。

建立一个通用语言翻译器，如《银河系搭便车指南》中虚构的巴贝尔鱼，是具有挑战性的，因为现有的语音到语音和语音到文本系统只涵盖世界语言的一小部分。SeamlessM4T通过解决语言覆盖范围有限和依赖单独系统的挑战，代表了语音到语音和语音到文本领域的重大突破，这些系统将语音到语音翻译的任务分为跨子系统的多个阶段。这些系统可以利用大量数据，通常只在一种模式下表现良好。我们的挑战是创建一个统一的多语言模型，可以做到这一切。

我们相信，我们今天宣布的工作是这一旅程中向前迈出的重要一步。我们的单一模式提供按需翻译，使讲不同语言的人能够更有效地沟通。我们显著提高了我们支持的中低资源语言的性能。这些语言的数字语言足迹较小。我们还在英语、西班牙语和德语等高资源语言上保持了强劲的表现。SeamlessM4T隐式识别源语言，而不需要单独的语言识别模型。

对比结果

SeamlessM4T-Large

模型基本信息

是否支持推理过程

最高上下文输入长度

最长输出结果

模型类型

发布时间

模型预文件大小

开源和体验地址

代码开源状态

预训练权重开源

GitHub 源码

Hugging Face

在线体验

官方介绍与博客

官方论文

DataLearnerAI博客

API接口信息

接口速度（满分5分）

接口价格

输入价格:

输出价格:

输入支持的模态

文本

图片

视频

音频

Embedding（向量）

输出支持的模态

文本

图片

视频

音频

Embedding（向量）

SeamlessM4T-Large模型在各大评测榜单的评分

发布机构

模型介绍

关注DataLearnerAI公众号