模型详细情况和参数
--------------2023年8月3日更新--------------------
Vicuna发布1.5版本更新的权重模型,效果更好: https://huggingface.co/lmsys/vicuna-13b-v1.5
Vicuna-13B是一个130亿规模的聊天机器人模型,基于MetaAI的LLaMA模型微调得到(LLaMA模型卡信息: https://www.datalearner.com/ai/pretrained-models/LLaMA )。
关于Vicuna项目的介绍: https://www.datalearner.com/ai-models/foundation-models/Vicuna
Vicuna-13B的简要概述及其效果
--------------2023年6月21日更新--------------------
2023年6月21日,Vicuna 13B发布了最新的预训练权重结果,版本号为v1.3,相比之前的版本,1.3版本的Vicuna 13B模型在2倍ShareGPT数据集上训练,同时其预训练权重也从delta版本的预训练结果变成了一个完全形态的预训练权重。
因此,目前Vicuna 13B的模型权重包含3个版本:
模型预训练权重版本 | v1.3 | v1.1 | v0 |
---|---|---|---|
预训练权重下载链接 | vicuna-13B-1.3 | vicuna-13B-1.1 | vicuna-13B-0 |
数据分隔符 | </s> | </s> | ### |
预训练权重发布日期 | 2023年6月21日 | 2023年4月12日 | 2023年4月3日 |
是否delta weights | No | Yes | Yes |
FastChat PyPI包兼容版本 | >= v0.2.1 | >= v0.2.1 | <= v0.1.10 |
FastChat 源码兼容版本 | after tag v0.2.1 | after tag v0.2.1 | tag v0.1.10 |
*注意:Vicuna系列模型是基于MetaAI开源的LLaMA模型微调得到,由于LLaMA开源限制,很多模型只发布与原始LLaMA预训练结果权重不同的部分,称为delta权重,使用时候必须与原始的LLaMA预训练合并才可以使用。详细情况参考: https://github.com/lm-sys/FastChat/blob/main/docs/vicuna_weights_version.md#how-to-apply-delta-weights-for-weights-v11-and-v0
其它版本的vicuna模型版本也更新到v1.3版本了~可以去基础模型信息查看全部Vicuna模型版本: https://www.datalearner.com/ai-models/foundation-models/Vicuna
--------------2023年6月21日更新--------------------
近年来,大型语言模型(LLMs)的快速发展已经彻底改变了聊天机器人系统,OpenAI的ChatGPT显示出前所未有的智能水平。然而,尽管其表现出色,但ChatGPT的训练和架构细节仍然不清楚,这阻碍了在这个领域的研究和开源创新。受Meta LLaMA和斯坦福大学Alpaca项目的启发,Vicuna-13B诞生,这是一个开源聊天机器人,具备增强的数据集和易于使用的可扩展基础设施支持。它由多个高校的老师和学生联合发布(包括UC伯克利分校、CMU等)。通过在从ShareGPT.com收集的用户共享对话上微调LLaMA基础模型,Vicuna-13B已经表现出与斯坦福大学Alpaca等其他开源模型相比的竞争性能。
Vicuna-13B模型的主要特点总结如下:
根据官方博客的介绍,Vicuna-13B效果很好。作者比较了Alpaca和Vicuna对基准问题的回答示例。在使用70,000个用户共享的ChatGPT对话进行fine-tuning后,结果与Alpaca相比,Vicuna能够生成更详细和结构更清晰的答案,质量与ChatGPT相当。下图是一个示例:
可以看到,Vicuna回答更加详细。
当然,评估聊天机器人从来不是一项简单的任务。不过作者也做了一些实验,初步发现表明,当比较聊天机器人的回答时,GPT-4能够产生高度一致的排名和详细的评估(请参见上述GPT-4判断的示例)。基于GPT-4的初步评估,总结如下图所示,显示Vicuna达到了Bard/ChatGPT的90%*能力。虽然这个提出的框架显示出自动评估聊天机器人的潜力,但它还不是一个严格的方法。建立一个聊天机器人的评估系统仍然是一个需要进一步研究的开放性问题。有关评估部分的更多详细信息在后面提供。
Vicuna-13B的技术实现
下图展示了Vicuna-13B的主要工作流程。
首先,作者从ShareGPT.com收集了约70K个对话,这是一个用户可以分享他们的ChatGPT对话的网站。
接下来,他们改进了Alpaca提供的训练脚本,以更好地处理多轮对话和长序列。训练使用PyTorch FSDP在8个A100 GPU上进行,耗时一天。
为了为演示提供服务,他们实现了一个轻量级的分布式服务系统。通过创建一组80个不同的问题,并利用GPT-4来评估模型输出的质量,对模型质量进行了初步评估。为了比较两种不同的模型,将每个问题的输出从每个模型组合成一个单独的提示。然后将这些提示发送到GPT-4,评估哪个模型提供更好的回答。
下表详细比较了LLaMA、Alpaca、ChatGPT和Vicuna。
模型名称 | 数据集 | 数据量 | 训练代码 | 训练成本(70亿参数) | 训练成本(130亿参数) |
---|---|---|---|---|---|
LLaMA | Publicly available datasets | 1T tokens | 未公开 | 8.2万 GPU小时 | 13.5万 GPU小时 |
Alpaca | 基于davinci-003 API的Self-instruct | 5.2万样本 | 公开 | 500美元数据+100美元训练 | 未知 |
Vicuna | User-shared conversations | 7万样本 | 公开 | 140美元 | 300美元 |
Bard/ChatGPT | 未知 | 未公开 | 未公开 | 未公开 | 未公开 |
Vicuna-13B的训练细节
Vicuna是通过使用来自ShareGPT.com的约70,000个用户共享的对话来微调LLaMA基础模型创建的,使用公共API收集数据。为了确保数据质量,我们将HTML转换回markdown并过滤一些不适当或低质量的样本。此外,我们将长对话分成适合模型最大上下文长度的较小片段。
我们的训练配方建立在Stanford alpaca的基础上,具有以下改进:
Vicuna-13B的开源地址和在线演示地址
开源代码: https://github.com/lm-sys/FastChat
在线演示: https://chat.lmsys.org/