Se

SeamlessM4T-Large

多模态大模型

SeamlessM4T-Large

发布时间: 2023-08-22

模型参数(Parameters)
23.0
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

2K tokens

最长输出结果
暂无数据
模型类型

多模态大模型

发布时间

2023-08-22

模型预文件大小

11.4GB

开源和体验地址

代码开源状态
预训练权重开源
CC BY-NC-SA 4.0 - 不可以商用
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

SeamlessM4T-Large模型在各大评测榜单的评分

发布机构

Facebook AI研究实验室
Facebook AI研究实验室
查看发布机构详情

模型介绍

来自Facebook的论文:SeamlessM4T—Massively Multilingual & Multimodal Machine Translation


MetaAI最新发布的语音转语音和语音转文字大模型。效果很好,介绍如下:


为了与我们开放科学的方法保持一致,我们将在CC BY-NC 4.0下公开发布SeamlessM4T,以允许研究人员和开发人员在这项工作的基础上再接再厉。我们还发布了SeamlessAlign的元数据,这是迄今为止最大的开放多模式翻译数据集,总共有27万小时的语音和文本对齐。我们使社区可以轻松地使用SONAR对自己的单语数据集执行挖掘,SONAR是一套完整的语音和文本句子编码器,以及我们的多模式数据处理和并行数据挖掘库。所有的研究进步都得到了我们的下一代序列建模库Fairseq2的支持。


建立一个通用语言翻译器,如《银河系搭便车指南》中虚构的巴贝尔鱼,是具有挑战性的,因为现有的语音到语音和语音到文本系统只涵盖世界语言的一小部分。SeamlessM4T通过解决语言覆盖范围有限和依赖单独系统的挑战,代表了语音到语音和语音到文本领域的重大突破,这些系统将语音到语音翻译的任务分为跨子系统的多个阶段。这些系统可以利用大量数据,通常只在一种模式下表现良好。我们的挑战是创建一个统一的多语言模型,可以做到这一切。


我们相信,我们今天宣布的工作是这一旅程中向前迈出的重要一步。我们的单一模式提供按需翻译,使讲不同语言的人能够更有效地沟通。我们显著提高了我们支持的中低资源语言的性能。这些语言的数字语言足迹较小。我们还在英语、西班牙语和德语等高资源语言上保持了强劲的表现。SeamlessM4T隐式识别源语言,而不需要单独的语言识别模型。


对比结果


关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat