Fa

FastChat-T5

基础大模型

FastChat-T5

发布时间: 2023-04-29

模型参数(Parameters)
30.0
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

最高上下文输入长度

2K tokens

最长输出结果
未披露
模型类型

基础大模型

发布时间

2023-04-29

模型预文件大小

6.71GB

开源和体验地址

代码开源状态
预训练权重开源
-
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
暂无
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

FastChat-T5模型在各大评测榜单的评分

发布机构

模型介绍

FastChat-T5是一个开源聊天机器人,通过对从ShareGPT收集的用户共享对话进行微调,训练了Flan-t5-xl(3B个参数)。它基于编码器-解码器的变换器架构,可以自回归地生成对用户输入的响应。


LM-SYS从ShareGPT.com收集了70,000个对话,然后基于这个数据集对Flan-t5-xl做了微调。Flan-t5-xl是Google开源的Flan-T5系列中的一个模型(Flan-T5模型卡信息: https://www.datalearner.com/ai/pretrained-models/flan-t5 )。FastChat-T5以问答形式处理ShareGPT的数据。每个ChatGPT的响应被处理为答案,用户和ChatGPT之间的先前对话被处理为问题。编码器双向编码问题成为一个隐藏表示。解码器使用交叉注意力关注这个表示,同时从一个起始标记单向生成一个答案。该模型进行了3个时期的微调,最大学习速率为2e-5,热身比率为0.03,采用余弦学习速率调度。


该模型已经集成到LM-SYS开源的FastChat框架中,可以直接使用。


根据官网提供的数据,FastChat-T5-3B虽然只有30亿参数,但是比Dolly-V2-12B模型更好(120亿参数的DollyV2版本: https://www.datalearner.com/ai-models/pretrained-models/dolly-v2 )。对比结果如下:


任务分类Items数量Dolly-V2-12B得分FastChat-T5-3B得分
通用类型107687
知识类型107479.5
角色扮演106384
常识类型107588
Fermi 任务104159
Counterfactual 任务106484
编程任务73917
数学任务3127
写作任务107587
汇总情况80510592.5


上图中的Fermi任务是指一类需要进行估算和推理的复杂问题。这些问题通常没有固定的答案,因此需要使用逻辑推理、近似计算和背景知识来得出合理的答案。


Counterfactual 任务是指在自然语言处理领域中,对于一个给定的场景和一个事件,生成一个表示该事件未发生的情况下,场景可能会发生的不同情况的语言表述。例如,对于一个场景“一个人在餐馆吃饭”,一个事件“他点了一份牛排”,则生成一个表示如果他没有点牛排可能会发生的情况,比如“他可能点了一份鱼”。


需要注意的是30亿参数规模的FastChat-T5在大多数任务得分上都比120亿参数规模的Dolly-V2好。但是这个模型编程得分却很低。说明它可能在代码方面并没有很好的训练。

Foundation Model

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat