SW

Switch Transformer

Switch Transformer

发布时间: 2021-01-11510
模型参数
16000.0亿
上下文长度
2K
中文支持
不支持
推理能力

模型基本信息

推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
基础大模型
发布时间
2021-01-11
模型文件大小
暂无数据
MoE架构
总参数 / 激活参数
16000.0 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据

开源和体验地址

代码开源状态
暂无数据
预训练权重开源
暂无数据
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。

评测得分

当前尚无可展示的评测数据。

发布机构

模型解读

Switch Transformer是由Google研究院于2021年提出的一种自然语言处理模型,它采用了一种全新的架构,旨在解决传统Transformer模型在处理超长文本时的效率问题。


Switch Transformer的核心思想是将文本分割成多个块,并对每个块进行单独的处理。该模型包含两个主要模块:分段模块和交换模块。在分段模块中,Switch Transformer将长文本分割成多个块,并对每个块进行编码。在交换模块中,模型会对不同块之间的信息进行交换和整合,以便更好地理解全局信息和上下文。


与传统Transformer不同,Switch Transformer引入了多头交换机机制来实现信息的交换和整合。在每个块的编码中,多头交换机机制允许每个块与其他块交换多个信息头。这种机制有助于更好地整合全局信息和上下文,同时减少了单个块中信息传递的路径长度,从而提高了模型的效率。


Switch Transformer在处理长文本任务时表现出色,比如问答、文本分类、自然语言推理等。与其他长文本处理模型相比,Switch Transformer在准确性和速度上都有显著的提升。这使得Switch Transformer成为一种极具潜力的自然语言处理模型,有望在未来的文本处理领域得到广泛应用。


根据之前的经验,模型越大效果越好。但是之前的模型对于所有的数据,其输入都是一样的。因此,这篇文章中提出的模型为每一个输入都指定一个参数作为输入的计算。即混合专家(Mixture of Experts,MoE)方法。显然这种方式的效果是一个稀疏激活的模型--参数数量多得离谱,但计算成本不变。


然而,尽管MoE取得了一些显著的成功,但由于其复杂性、通信成本和训练的不稳定性,其广泛采用受到了阻碍。这篇文章通过引入Switch Transformer来解决这些问题。它简化了MoE的路由算法,设计了直观的改进模型,减少了通信和计算成本。所提出的训练技术缓解了不稳定性,并且首次表明大型稀疏模型可以用较低的精度(bfloat16)格式进行训练。


设计了基于T5-Base和T5-Large的模型,以相同的计算资源获得高达7倍的预训练速度。这些改进延伸到多语言环境中,我们测量了所有101种语言中比mT5-Base版本的收益。最后,我们通过在 "巨无霸清洁语料库 "上预训练高达万亿的参数模型,推进了当前语言模型的规模,并实现了比T5-XXL模型4倍的速度提升。


DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码