模型详细情况和参数
Koala是UC Berkeley发布的基于LLaMA微调的聊天机器人模型。Koala可以有效地回答各种用户查询,生成的回复通常优于Alpaca,并且在超过一半的情况下与ChatGPT相当。
Koala的发布试图证明如果在精心筛选的数据上进行训练,即使模型规模不大,也可以有不错的表现,甚至与其较多参数的基础模型性能差不多。这可能意味着,例如,社区应该更加努力地筛选高质量的数据集,因为这可能比仅仅增加现有系统的大小更有助于实现更安全、更具事实依据和更具能力的模型。
Koala是一个研究原型,虽然作者希望其发布将成为一个有价值的社区资源,但它在内容、安全性和可靠性方面仍然存在重大缺陷,不应在研究之外使用。
下图是Koala系统概览:
虽然开源模型不太可能与闭源模型的规模相匹配,但也许精心选择的训练数据可以使它们接近闭源模型的性能。事实上,一些努力,比如斯坦福大学的Alpaca,在OpenAI的GPT模型上微调LLaMA的数据,表明正确的数据可以显著提高较小的开源模型的性能。Koala就是UC Berkeley所尝试的类似的模型。
Koala是在从网络上爬取的自由互动数据上进行微调的,但特别关注包括与ChatGPT等高度能力的闭源模型的互动数据。作者在从网络和公共数据集上爬取的对话数据上微调LLaMA基础模型,其中包括来自其他大型语言模型的高质量响应、问答数据集和人类反馈数据集的用户查询。由此产生的模型Koala-13B,在我们对真实世界用户提示的人类评估中表现出了有竞争力的性能。
结果表明,从高质量的数据集中学习可以缓解较小模型的一些缺点,甚至在未来可能与大型闭源模型的能力相匹配。这可能意味着,例如,社区应该更加努力地筛选高质量的数据集,因为这可能比仅仅增加现有系统的大小更有助于实现更安全、更具事实依据和更具能力的模型。
下图是Koala与其他模型的简单对比:
可以看到,相比较斯坦福大学的Alpaca,Koala是基于对话微调的模型。但是并没有开源训练代码和训练结果文件。
构建对话模型的主要障碍是筛选训练数据。包括ChatGPT、Bard、Bing Chat和Claude在内的知名聊天模型使用专有数据集,这些数据集都需要大量的人工注释。为了构建Koala,作者通过从网络和公共数据集中收集对话数据来筛选训练集。其中一部分数据包括用户在网上发布的与大型语言模型(例如ChatGPT)的对话。
需要注意的是,Koala并不是通过尽可能地爬取更多的网络数据来最大化数据量,而是专注于收集一组小而高质量的数据集。使用公共数据集进行问答、人类反馈(包括正面和负面的评分)以及与现有语言模型的对话。
数据集组成的具体细节如下:
这部分数据包含2个:
这部分数据包含5个来源:
Koala模型是使用JAX/Flax在开源框架EasyLM中实现的,该框架使得预训练、微调、服务和评估各种大型语言模型变得容易。作者在一台带有8个A100 GPU的Nvidia DGX服务器上训练Koala模型。完成2轮训练需要6个小时。在公共云计算平台上,这样的训练通常使用抢占式实例成本不到100美元。
上图是Koala的评测结果,评估了两个模型:Koala-Distill仅使用蒸馏数据,Koala-All使用所有数据,包括蒸馏和开源数据。这是人类评估,将Koala-All与Koala-Distill、Alpaca和ChatGPT进行比较。在两个不同的测试集上进行评估,一个由斯坦福的Alpaca使用的180个测试查询组成(“Alpaca测试集”),另一个是Koala自己的测试集(“Koala测试集”)。
令人惊讶的是,除了蒸馏数据之外,使用开源数据进行训练(Koala-All)的表现略差于仅使用ChatGPT蒸馏数据进行训练(Koala-Distill),这在两个数据集上都有所体现。尽管差异可能不是很显著,但这个结果表明,ChatGPT的对话质量非常高,即使加入了两倍于其量的开源数据,也没有显著提高模型性能。这些实验的一个潜在的结论是,完全可以使用来自更大更强大模型的数据来微调LLM主干,只要用于这些响应的提示代表用户在测试时提供的提示的种类。这也进一步支持了一个观点,即构建强大的对话模型的关键可能更在于筛选多样化的用户查询的高质量对话数据,而不仅仅是将现有数据集重格式化为问题和答案。
需要注意的是Koala目前并没有开源其训练代码和训练结果(2023/4/5)。但是其训练数据预处理的代码以及测试数据有公开:
Koala的在线测试地址: https://koala.lmsys.org/
训练数据预处理代码: https://github.com/young-geng/koala_data_pipeline
查询测试数据: https://github.com/arnav-gudibande/koala-test-set
在线演示仅用于学术研究,属于LLaMA模型许可证、OpenAI生成数据使用条款和ShareGPT隐私规定的研究预览,禁止进行任何其他用途,包括但不限于商业用途。