Fl

Flan-UL2

基础大模型

Flan-UL2 20B

发布时间: 2023-03-03

模型参数(Parameters)
200.0
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

最高上下文输入长度

2K tokens

最长输出结果
未披露
模型类型

基础大模型

发布时间

2023-03-03

模型预文件大小
暂无数据

开源和体验地址

代码开源状态
预训练权重开源
-
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

Flan-UL2模型在各大评测榜单的评分

发布机构

模型介绍

Flan-UL2 20B是谷歌最新开源的200亿参数的预训练模型。这是在开源的UL2 20B上继续训练得到的。主要是用Flan进行了指令tuned。


UL2是谷歌2022年5月份发布的一个大语言模型框架,本次发布的Flan-UL2是继上次开源的UL2的200亿参数结果继续训练的,属于UL2系列的一员。


在 "Scaling Instruction-Finetuned language models (Chung et al.) (有时也被称为Flan2论文),其关键思想是在一组数据集上训练一个大型语言模型。这些数据集被表述为指令,能够在不同的任务中进行泛化。Flan主要在学术任务上进行训练。在Flan2中,我们发布了一系列的T5模型,参数范围从200M到11B,这些模型都经过了Flan的指令调整。


Flan数据集也已在 "The Flan Collection "中公开发布。设计有效指令调优的数据和方法"(Longpre等人)。见谷歌人工智能博客帖子。"The Flan Collection: 推进教学调整的开源方法"。


Flan 20B与UL2 20B的checkpoints


UL2 20B早在2022年第二季度就已经开源了(见《博文:UL2 20B:一个开源的统一语言学习者》)。UL2 20B(准确地说,是~19.5B的参数)完全是在C4语料库上训练的(类似于T5模型)。UL2模型是在新的UL2目标上训练的,该目标在denoisers的混合物上训练(多样化的跨度腐败和前缀语言建模任务)。


我们对带有Flan的UL2 20B模型做了两个主要更新。


最初的UL2模型只在接受域为512的情况下进行训练,这使得它对于N大的N-shot提示不理想。这个Flan-UL2检查点使用的是2048的接受域,这使得它更适用于几张照片的语境学习。


最初的UL2模型也有模式切换标记,这对于获得良好的性能来说是必须的。然而,它们有点麻烦,因为这需要在推理或微调时经常进行一些改变。在这次更新/改变中,我们继续对UL2 20B进行额外的10万步训练(小批量),以便在应用Flan指令调整之前忘记 "模式标记"。这个Flan-UL2检查点不再需要模式令牌了。


模型效果


我们将Flan-UL2 20B与Flan系列的其他模型进行比较。我们报告了相对于Flan-T5-XXL的改进。一般来说,Flan-UL2在所有四个设置上都优于Flan-T5 XXL,整体性能提升了+3.2%的相对改进。大部分收益似乎来自于CoT设置,而直接提示(MMLU和BBH)的性能似乎最多只能算一般。


注意:Flan-UL2 20B的模型是基于Apache 2.0开源协议的,因此没有任何限制,可以放心使用。


Flan-UL2的checkpoints下载地址:gs://scenic-bucket/ul2/flan-ul220b/checkpoint_2283000


官方介绍地址: https://www.yitay.net/blog/flan-ul2-20b 



关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat