模型详细情况和参数
Dolly是由Databricks公司发布的一个低成本的大型语言模型(LLM),具有与ChatGPT相似的惊人的指令跟随能力。而Alpaca团队的工作表明,最先进的模型可以被引导出高质量的指令跟随行为,我们发现即使是早期架构的开源模型,只要在少量的指令训练数据上进行微调,也能展现出引人注目的行为。Dolly的工作原理是采用EleutherAI的一个现有的开源6亿参数模型,经过微小的修改,利用Alpaca的数据调整以产生类似头脑风暴和文本生成等指令跟随能力,这些能力在原始模型中并不存在。
与GPT-3的1750亿参数相比,Dolly模型仅有6亿参数,而且已经有两年的历史了,这使得它能够如此出色的表现,特别令人惊讶。这表明,像ChatGPT这样的最先进模型的许多定性收益可能是由于专注于指令跟随训练数据,而不是更大或更好调整的基础模型。我们将这个模型称为Dolly,以Dolly the sheep(多利羊)为名,这是第一个克隆的哺乳动物,因为它是一个开源的Alpaca克隆版,受到LLaMA的启发。我们现在处于AI赋能企业的最早阶段,还有很多工作要做,但是我们相信Dolly背后的技术代表了一个令人兴奋的新机会,适用于想要廉价构建自己的指令跟随模型的公司。
我们对Dolly进行了评估,评估的指标是基于InstructGPT论文描述的指令跟随能力,而ChatGPT正是基于这个论文。我们发现Dolly表现出了许多相同的定性能力,包括文本生成、头脑风暴和开放式问答。在这些例子中,特别值得注意的不是生成的文本质量,而是通过在一个高质量的小数据集上微调一个几年前的开源模型,能够显著提高指令跟随能力的结果。
目前开放的Databricks的Dolly-v1-6b是一个60亿参数的大型语言模型,它在Databricks机器学习平台上进行了训练,表明一个两年前的开源模型,在经过短短30分钟的精细调整后,能够展现出非常高质量的指令跟随行为,这与其基础模型的特征不同。这一发现非常重要,因为它证明了创造强大的人工智能技术的能力远比以前所认为的要容易得多。
今年的数据和人工智能峰会上Databricks将会分享Dolly的训练细节。
目前开源的版本细节
dolly-v1-6b是由Databricks创建的一个60亿参数的因果语言模型,它源自EleutherAI的GPT-J(于2021年6月发布),并在一个约为52,000个记录的指令语料库(Stanford Alpaca)(CC-NC-BY-4.0)上进行了微调,其中包括使用Self-Instruct论文中概述的技术生成的问答对。Dolly的原始版本是使用deepspeed ZeRO 3在Databricks机器学习平台上训练的,仅使用一台NDasrA100_v4机器和8个A100 40GB GPU,只需30分钟(1个epoch)即可完成。最近的dolly-v1-6b checkpoints在相同的硬件上进行了10个epochs的训练。
与其基础模型类似,dolly-v1-6b有60亿个参数,包括28个变压器层,每个层有16个注意头。它采用了Rotary Position Embedding(RoPE)并与GPT-3共享相同的分词器。GPT-J是在The Pile上进行训练的,这是一个主要用于文本生成任务的各种文档的400B标记数据集。