Vicuna 13B - Vicuna 13B

模型详细情况和参数

Vicuna 13B

模型全称
Vicuna 13B
模型简称
Vicuna 13B
模型类型
基础大模型
发布日期
2023-03-31
预训练文件大小
26GB
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
130.0
模型代码开源协议
Apache 2.0
预训练结果开源商用情况
开源不可商用 - 不可以商用
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
...
LLaMA
查看详情
发布机构

Vicuna 13B 简介

--------------2023年8月3日更新--------------------

Vicuna发布1.5版本更新的权重模型,效果更好: https://huggingface.co/lmsys/vicuna-13b-v1.5 


Vicuna-13B是一个130亿规模的聊天机器人模型,基于MetaAI的LLaMA模型微调得到(LLaMA模型卡信息: https://www.datalearner.com/ai/pretrained-models/LLaMA )。


关于Vicuna项目的介绍: https://www.datalearner.com/ai-models/foundation-models/Vicuna 


Vicuna-13B的简要概述及其效果


--------------2023年6月21日更新--------------------

2023年6月21日,Vicuna 13B发布了最新的预训练权重结果,版本号为v1.3,相比之前的版本,1.3版本的Vicuna 13B模型在2倍ShareGPT数据集上训练,同时其预训练权重也从delta版本的预训练结果变成了一个完全形态的预训练权重。


因此,目前Vicuna 13B的模型权重包含3个版本:

模型预训练权重版本v1.3v1.1v0
预训练权重下载链接vicuna-13B-1.3vicuna-13B-1.1vicuna-13B-0
数据分隔符</s></s>###
预训练权重发布日期2023年6月21日2023年4月12日2023年4月3日
是否delta weightsNoYesYes
FastChat PyPI包兼容版本>= v0.2.1>= v0.2.1<= v0.1.10
FastChat 源码兼容版本after tag v0.2.1after tag v0.2.1tag v0.1.10


*注意:Vicuna系列模型是基于MetaAI开源的LLaMA模型微调得到,由于LLaMA开源限制,很多模型只发布与原始LLaMA预训练结果权重不同的部分,称为delta权重,使用时候必须与原始的LLaMA预训练合并才可以使用。详细情况参考: https://github.com/lm-sys/FastChat/blob/main/docs/vicuna_weights_version.md#how-to-apply-delta-weights-for-weights-v11-and-v0 


其它版本的vicuna模型版本也更新到v1.3版本了~可以去基础模型信息查看全部Vicuna模型版本: https://www.datalearner.com/ai-models/foundation-models/Vicuna 

--------------2023年6月21日更新--------------------


近年来,大型语言模型(LLMs)的快速发展已经彻底改变了聊天机器人系统,OpenAI的ChatGPT显示出前所未有的智能水平。然而,尽管其表现出色,但ChatGPT的训练和架构细节仍然不清楚,这阻碍了在这个领域的研究和开源创新。受Meta LLaMA和斯坦福大学Alpaca项目的启发,Vicuna-13B诞生,这是一个开源聊天机器人,具备增强的数据集和易于使用的可扩展基础设施支持。它由多个高校的老师和学生联合发布(包括UC伯克利分校、CMU等)。通过在从ShareGPT.com收集的用户共享对话上微调LLaMA基础模型,Vicuna-13B已经表现出与斯坦福大学Alpaca等其他开源模型相比的竞争性能。


Vicuna-13B模型的主要特点总结如下:

  • 仅仅用130亿参数规模,实现了ChatGPT/Bard的90%的水平;
  • 训练成本仅有300美元;
  • 训练和服务代码完全公开;
  • 仅限非商业用途


根据官方博客的介绍,Vicuna-13B效果很好。作者比较了Alpaca和Vicuna对基准问题的回答示例。在使用70,000个用户共享的ChatGPT对话进行fine-tuning后,结果与Alpaca相比,Vicuna能够生成更详细和结构更清晰的答案,质量与ChatGPT相当。下图是一个示例:



可以看到,Vicuna回答更加详细。



当然,评估聊天机器人从来不是一项简单的任务。不过作者也做了一些实验,初步发现表明,当比较聊天机器人的回答时,GPT-4能够产生高度一致的排名和详细的评估(请参见上述GPT-4判断的示例)。基于GPT-4的初步评估,总结如下图所示,显示Vicuna达到了Bard/ChatGPT的90%*能力。虽然这个提出的框架显示出自动评估聊天机器人的潜力,但它还不是一个严格的方法。建立一个聊天机器人的评估系统仍然是一个需要进一步研究的开放性问题。有关评估部分的更多详细信息在后面提供。



Vicuna-13B的技术实现

下图展示了Vicuna-13B的主要工作流程。


首先,作者从ShareGPT.com收集了约70K个对话,这是一个用户可以分享他们的ChatGPT对话的网站。

接下来,他们改进了Alpaca提供的训练脚本,以更好地处理多轮对话和长序列。训练使用PyTorch FSDP在8个A100 GPU上进行,耗时一天。

为了为演示提供服务,他们实现了一个轻量级的分布式服务系统。通过创建一组80个不同的问题,并利用GPT-4来评估模型输出的质量,对模型质量进行了初步评估。为了比较两种不同的模型,将每个问题的输出从每个模型组合成一个单独的提示。然后将这些提示发送到GPT-4,评估哪个模型提供更好的回答。


下表详细比较了LLaMA、Alpaca、ChatGPT和Vicuna。

模型名称数据集数据量训练代码训练成本(70亿参数)训练成本(130亿参数)
LLaMAPublicly available datasets1T tokens未公开8.2万 GPU小时13.5万 GPU小时
Alpaca基于davinci-003 API的Self-instruct5.2万样本公开500美元数据+100美元训练未知
VicunaUser-shared conversations 7万样本公开140美元300美元
Bard/ChatGPT未知未公开未公开未公开未公开


Vicuna-13B的训练细节

Vicuna是通过使用来自ShareGPT.com的约70,000个用户共享的对话来微调LLaMA基础模型创建的,使用公共API收集数据。为了确保数据质量,我们将HTML转换回markdown并过滤一些不适当或低质量的样本。此外,我们将长对话分成适合模型最大上下文长度的较小片段。

我们的训练配方建立在Stanford alpaca的基础上,具有以下改进:

  • 内存优化:为了使Vicuna能够理解长上下文,我们将最大上下文长度从alpaca的512扩展到2048,这大大增加了GPU内存需求。我们通过利用梯度检查点和闪存注意力来解决内存压力。
  • 多轮对话:我们调整了训练损失以考虑多轮对话,并仅计算聊天机器人的输出的微调损失。
  • 通过Spot实例降低成本:训练的40倍大的数据集和4倍的序列长度带来了训练费用方面的巨大挑战。我们采用SkyPilot managed spot来利用更便宜的Spot实例,具有自动恢复预占和自动区域切换的功能,从而降低成本。这个解决方案将7B模型的训练成本从500美元降低到约140美元,将13B模型的训练成本从约1,000美元降低到300美元。


Vicuna-13B的开源地址和在线演示地址


开源代码: https://github.com/lm-sys/FastChat 

在线演示: https://chat.lmsys.org/ 

官方博客: https://vicuna.lmsys.org/ 

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

Vicuna 13B所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

Vicuna 13B相关的任务
问答系统

问答系统

Question Answering

35个资源