模型详细情况和参数
----------------2023年5月20日更新-----------------------
随着NomicAI运营思路的转变GPT4All也从单一的模型转换成一个支持本地运行各大开源“ChatGPT”模型的软件。
关于GPT4All的具体使用和信息参考: https://www.datalearner.com/blog/1051684590410303
GPT4All是Nomic AI公司开源的一个类似ChatGPT的模型,它是基于MetaAI开源的LLaMA微调得到的其最大的特点是开源,并且其4-bit量化版本可以在CPU上运行!同时,因为他们精心挑选了80万的 prompt-response对进行微调训练,因此其效果十分好!
以下是GPT4All的具体信息。
Nomic AI精心挑选了大约80万个提示-响应样本( prompt-response ),以生成43万个高质量的助手式提示/生成训练对,包括代码、对话和故事训练了GPT4All。发现它的效果很好。
最主要的是,该模型完全开源,包括代码、训练数据、预训练的checkpoints以及4-bit量化结果。
他们发布的4-bit量化预训练结果可以使用CPU作为推理!
GPT4All的主要训练过程如下:
最开始,Nomic AI使用OpenAI的GPT-3.5-Turbo的API收集了大约100万个prompt-response对。为了收集这些数据,他们利用了3个公开数据集收集:
然后,受到斯坦福大学的Alpaca项目( https://www.datalearner.com/ai-models/pretrained-models/stanford-alpaca )的启发,在收集了初始的提示生成数据集后,删除了GPT-3.5-Turbo无法响应提示并生成格式错误输出的所有示例。这将总样本数量减少到了806,199个高质量的提示生成对。
接下来,从最终训练数据集中删除整个Bigscience/P3子集,因为它的输出多样性很低;P3包含许多同质化的提示,导致GPT-3.5-Turbo产生短而同质的响应。这个排除产生了一个包含437,605个提示生成对的最终子集,如图2所示。
基于上述数据,他们用Meta开源的LLaMA模型(70亿参数规模: https://www.datalearner.com/ai-models/pretrained-models/LLaMA )做了微调。
GPT4All目前有好几个版本:
GPT4All模型名称 | 模型简介 | DataLearner模型信息卡地址 | 开源协议 |
---|---|---|---|
gpt4all-j | 基于GPT-J模型做Chat优化的模型,也基于不同的数据集训练 | https://www.datalearner.com/ai-models/pretrained-models/GPT4All-J | Apache-2 ✅ |
gpt4all-j-lora | 使用了LoRA技术微调的GPT-J | Apache-2 ✅ | |
gpt4all-lora | 基于LLaMA微调的模型,迭代了4次Epochs | https://www.datalearner.com/ai-models/pretrained-models/GPT4All-LoRA | GPL-3.0 ❌ |
gpt4all-13b-snoozy | 基于LLaMA-13B模型的微调结果 | https://www.datalearner.com/ai-models/pretrained-models/GPT4All-13B | GPL ❌ |
gpt4all-lora-epoch-3 | 基于LLaMA微调的模型,是一个中间结果,仅迭代3次Epochs | GPL-3.0 ❌ |