Koala（Koala-13B）详细信息 | 名称、简介、使用方法，开源情况，商用授权信息

Koala - Koala-13B

模型详细情况和参数

Koala

模型全称: Koala-13B
模型简称: Koala
模型类型: 基础大模型
发布日期: 2023-04-03
预训练文件大小: 未知
是否支持中文（中文优化）: 否
最高支持的上下文长度: 2K
模型参数数量（亿）: 130.0
模型代码开源协议
预训练结果开源商用情况: -
模型GitHub链接: 暂无
模型HuggingFace链接: 暂无
在线演示地址: 暂无
DataLearnerAI的模型介绍
官方博客论文: Koala: A Dialogue Model for Academic Research
基础模型: LLaMA
查看详情
发布机构: 达摩院

Koala-13B 简介

Koala是UC Berkeley发布的基于LLaMA微调的聊天机器人模型。Koala可以有效地回答各种用户查询，生成的回复通常优于Alpaca，并且在超过一半的情况下与ChatGPT相当。

Koala简介

Koala的发布试图证明如果在精心筛选的数据上进行训练，即使模型规模不大，也可以有不错的表现，甚至与其较多参数的基础模型性能差不多。这可能意味着，例如，社区应该更加努力地筛选高质量的数据集，因为这可能比仅仅增加现有系统的大小更有助于实现更安全、更具事实依据和更具能力的模型。

Koala是一个研究原型，虽然作者希望其发布将成为一个有价值的社区资源，但它在内容、安全性和可靠性方面仍然存在重大缺陷，不应在研究之外使用。

下图是Koala系统概览：

Koala系统与Alpaca的区别

虽然开源模型不太可能与闭源模型的规模相匹配，但也许精心选择的训练数据可以使它们接近闭源模型的性能。事实上，一些努力，比如斯坦福大学的Alpaca，在OpenAI的GPT模型上微调LLaMA的数据，表明正确的数据可以显著提高较小的开源模型的性能。Koala就是UC Berkeley所尝试的类似的模型。

Koala是在从网络上爬取的自由互动数据上进行微调的，但特别关注包括与ChatGPT等高度能力的闭源模型的互动数据。作者在从网络和公共数据集上爬取的对话数据上微调LLaMA基础模型，其中包括来自其他大型语言模型的高质量响应、问答数据集和人类反馈数据集的用户查询。由此产生的模型Koala-13B，在我们对真实世界用户提示的人类评估中表现出了有竞争力的性能。

结果表明，从高质量的数据集中学习可以缓解较小模型的一些缺点，甚至在未来可能与大型闭源模型的能力相匹配。这可能意味着，例如，社区应该更加努力地筛选高质量的数据集，因为这可能比仅仅增加现有系统的大小更有助于实现更安全、更具事实依据和更具能力的模型。

下图是Koala与其他模型的简单对比：

可以看到，相比较斯坦福大学的Alpaca，Koala是基于对话微调的模型。但是并没有开源训练代码和训练结果文件。

Koala的数据集和训练信息

构建对话模型的主要障碍是筛选训练数据。包括ChatGPT、Bard、Bing Chat和Claude在内的知名聊天模型使用专有数据集，这些数据集都需要大量的人工注释。为了构建Koala，作者通过从网络和公共数据集中收集对话数据来筛选训练集。其中一部分数据包括用户在网上发布的与大型语言模型(例如ChatGPT)的对话。

需要注意的是，Koala并不是通过尽可能地爬取更多的网络数据来最大化数据量，而是专注于收集一组小而高质量的数据集。使用公共数据集进行问答、人类反馈(包括正面和负面的评分)以及与现有语言模型的对话。

数据集组成的具体细节如下：

ChatGPT Distillation Data

这部分数据包含2个：

公共用户分享的与ChatGPT的对话 (ShareGPT) ：使用公共API收集了大约60K个用户在ShareGPT上分享的对话。为了保持数据质量，在用户查询层面进行了去重，并删除了任何非英语的对话。这样剩下大约30K个样例。
人类与ChatGPT的对话比较语料库 (HC3) ：使用了HC3英文数据集中的人类回答和ChatGPT回答，该数据集包含了大约60K个人类回答和27K个ChatGPT回答，共计约87K个问答样例，覆盖了大约24K个问题。

开源数据

这部分数据包含5个来源：

开放指令通用型(OIG)：使用由LAION策划的开放指令通用型数据集中手动选择的一部分组件。具体来说，使用了小学数学指令、诗歌转化为歌曲以及情节-剧本-书籍-对话数据集。这总共产生了大约30k个样例。
斯坦福Alpaca：包括用于训练斯坦福Alpaca模型的数据集。该数据集包含大约52K个样例，是通过OpenAI的text-davinci-003模型根据自我指导过程生成的。值得注意的是，HC3、OIG和Alpaca数据集都是单轮问答，而ShareGPT数据集是对话交流。
Anthropic HH：Anthropic HH数据集包含模型输出的有害和有益评级。该数据集包含大约160K个经过人类评分的样例，其中每个样例由聊天机器人的一对响应组成，其中一个响应是人类偏好的。这个数据集为模型提供了能力和额外的安全保护。
OpenAI WebGPT：OpenAI WebGPT数据集包括总共约20K个比较，每个例子包括一个问题、一对模型答案和元数据。答案由人类评分得分。
OpenAI Summarization：OpenAI Summarization数据集包含大约93K个样例，每个样例包括有关模型生成摘要的人类反馈。人类评估员从两个选项中选择了更优秀的摘要。

Koala的实现和评估

Koala模型是使用JAX/Flax在开源框架EasyLM中实现的，该框架使得预训练、微调、服务和评估各种大型语言模型变得容易。作者在一台带有8个A100 GPU的Nvidia DGX服务器上训练Koala模型。完成2轮训练需要6个小时。在公共云计算平台上，这样的训练通常使用抢占式实例成本不到100美元。

上图是Koala的评测结果，评估了两个模型：Koala-Distill仅使用蒸馏数据，Koala-All使用所有数据，包括蒸馏和开源数据。这是人类评估，将Koala-All与Koala-Distill、Alpaca和ChatGPT进行比较。在两个不同的测试集上进行评估，一个由斯坦福的Alpaca使用的180个测试查询组成(“Alpaca测试集”)，另一个是Koala自己的测试集(“Koala测试集”)。

令人惊讶的是，除了蒸馏数据之外，使用开源数据进行训练(Koala-All)的表现略差于仅使用ChatGPT蒸馏数据进行训练(Koala-Distill)，这在两个数据集上都有所体现。尽管差异可能不是很显著，但这个结果表明，ChatGPT的对话质量非常高，即使加入了两倍于其量的开源数据，也没有显著提高模型性能。这些实验的一个潜在的结论是，完全可以使用来自更大更强大模型的数据来微调LLM主干，只要用于这些响应的提示代表用户在测试时提供的提示的种类。这也进一步支持了一个观点，即构建强大的对话模型的关键可能更在于筛选多样化的用户查询的高质量对话数据，而不仅仅是将现有数据集重格式化为问题和答案。

Koala的在线演示地址及其它资源

需要注意的是Koala目前并没有开源其训练代码和训练结果（2023/4/5）。但是其训练数据预处理的代码以及测试数据有公开：

Koala的在线测试地址： https://koala.lmsys.org/

训练数据预处理代码： https://github.com/young-geng/koala_data_pipeline

查询测试数据： https://github.com/arnav-gudibande/koala-test-set

在线演示仅用于学术研究，属于LLaMA模型许可证、OpenAI生成数据使用条款和ShareGPT隐私规定的研究预览，禁止进行任何其他用途，包括但不限于商业用途。