FastChat-T5（FastChat-T5）详细信息 | 名称、简介、使用方法，开源情况，商用授权信息

FastChat-T5 - FastChat-T5

模型详细情况和参数

FastChat-T5

模型全称: FastChat-T5
模型简称: FastChat-T5
模型类型: 基础大模型
发布日期: 2023-04-29
预训练文件大小: 6.71GB
是否支持中文（中文优化）: 否
最高支持的上下文长度: 2K
模型参数数量（亿）: 30.0
模型代码开源协议
预训练结果开源商用情况: -
模型GitHub链接: https://github.com/lm-sys/FastChat#FastChat-T5
模型HuggingFace链接: https://huggingface.co/lmsys/fastchat-t5-3b-v1.0
在线演示地址: 暂无
DataLearnerAI的模型介绍
官方博客论文: 暂无
基础模型: Flan-T5
查看详情
发布机构: LM-SYS

FastChat-T5 简介

FastChat-T5是一个开源聊天机器人，通过对从ShareGPT收集的用户共享对话进行微调，训练了Flan-t5-xl（3B个参数）。它基于编码器-解码器的变换器架构，可以自回归地生成对用户输入的响应。

LM-SYS从ShareGPT.com收集了70,000个对话，然后基于这个数据集对Flan-t5-xl做了微调。Flan-t5-xl是Google开源的Flan-T5系列中的一个模型（Flan-T5模型卡信息： https://www.datalearner.com/ai/pretrained-models/flan-t5 ）。FastChat-T5以问答形式处理ShareGPT的数据。每个ChatGPT的响应被处理为答案，用户和ChatGPT之间的先前对话被处理为问题。编码器双向编码问题成为一个隐藏表示。解码器使用交叉注意力关注这个表示，同时从一个起始标记单向生成一个答案。该模型进行了3个时期的微调，最大学习速率为2e-5，热身比率为0.03，采用余弦学习速率调度。

该模型已经集成到LM-SYS开源的FastChat框架中，可以直接使用。

根据官网提供的数据，FastChat-T5-3B虽然只有30亿参数，但是比Dolly-V2-12B模型更好（120亿参数的DollyV2版本： https://www.datalearner.com/ai-models/pretrained-models/dolly-v2 ）。对比结果如下：

任务分类	Items数量	Dolly-V2-12B得分	FastChat-T5-3B得分
通用类型	10	76	87
知识类型	10	74	79.5
角色扮演	10	63	84
常识类型	10	75	88
Fermi 任务	10	41	59
Counterfactual 任务	10	64	84
编程任务	7	39	17
数学任务	3	12	7
写作任务	10	75	87
汇总情况	80	510	592.5

上图中的Fermi任务是指一类需要进行估算和推理的复杂问题。这些问题通常没有固定的答案，因此需要使用逻辑推理、近似计算和背景知识来得出合理的答案。

Counterfactual 任务是指在自然语言处理领域中，对于一个给定的场景和一个事件，生成一个表示该事件未发生的情况下，场景可能会发生的不同情况的语言表述。例如，对于一个场景“一个人在餐馆吃饭”，一个事件“他点了一份牛排”，则生成一个表示如果他没有点牛排可能会发生的情况，比如“他可能点了一份鱼”。

需要注意的是30亿参数规模的FastChat-T5在大多数任务得分上都比120亿参数规模的Dolly-V2好。但是这个模型编程得分却很低。说明它可能在代码方面并没有很好的训练。