GPT4All - GPT4All

模型详细情况和参数

GPT4All

模型全称
GPT4All
模型简称
GPT4All
模型类型
发布日期
2023-03-29
预训练文件大小
8GB
模型参数数量(亿)
70
代码是否开源
预训练结果是否开源
预训练结果商用授权情况
发布论文名(官方博客名)
GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo
基础模型
...
LLaMA
查看详情
发布机构

GPT4All 简介

----------------2023年5月20日更新-----------------------

随着NomicAI运营思路的转变GPT4All也从单一的模型转换成一个支持本地运行各大开源“ChatGPT”模型的软件。

关于GPT4All的具体使用和信息参考: https://www.datalearner.com/blog/1051684590410303 



GPT4All是Nomic AI公司开源的一个类似ChatGPT的模型,它是基于MetaAI开源的LLaMA微调得到的其最大的特点是开源,并且其4-bit量化版本可以在CPU上运行!同时,因为他们精心挑选了80万的 prompt-response对进行微调训练,因此其效果十分好!


以下是GPT4All的具体信息。


Nomic AI精心挑选了大约80万个提示-响应样本( prompt-response ),以生成43万个高质量的助手式提示/生成训练对,包括代码、对话和故事训练了GPT4All。发现它的效果很好。


最主要的是,该模型完全开源,包括代码、训练数据、预训练的checkpoints以及4-bit量化结果。


他们发布的4-bit量化预训练结果可以使用CPU作为推理!


GPT4All的主要训练过程如下:


最开始,Nomic AI使用OpenAI的GPT-3.5-Turbo的API收集了大约100万个prompt-response对。为了收集这些数据,他们利用了3个公开数据集收集:

LAION OIG的unified_chip2子集: https://huggingface.co/datasets/laion/OIG 
Stackoverflow下面的编程问答数据: https://huggingface.co/datasets/pacovaldez/stackoverflow-questions 
基于Big-science/P3的指令调整: https://huggingface.co/bigscience/bloomz-p3 


然后,受到斯坦福大学的Alpaca项目(  https://www.datalearner.com/ai-models/pretrained-models/stanford-alpaca  )的启发,在收集了初始的提示生成数据集后,删除了GPT-3.5-Turbo无法响应提示并生成格式错误输出的所有示例。这将总样本数量减少到了806,199个高质量的提示生成对。


接下来,从最终训练数据集中删除整个Bigscience/P3子集,因为它的输出多样性很低;P3包含许多同质化的提示,导致GPT-3.5-Turbo产生短而同质的响应。这个排除产生了一个包含437,605个提示生成对的最终子集,如图2所示。



基于上述数据,他们用Meta开源的LLaMA模型(70亿参数规模: https://www.datalearner.com/ai-models/pretrained-models/LLaMA )做了微调。


GPT4All目前有好几个版本:

GPT4All模型名称模型简介DataLearner模型信息卡地址开源协议
gpt4all-j基于GPT-J模型做Chat优化的模型,也基于不同的数据集训练 https://www.datalearner.com/ai-models/pretrained-models/GPT4All-J Apache-2 ✅
gpt4all-j-lora使用了LoRA技术微调的GPT-JApache-2 ✅
gpt4all-lora基于LLaMA微调的模型,迭代了4次Epochshttps://www.datalearner.com/ai-models/pretrained-models/GPT4All-LoRAGPL-3.0 ❌
gpt4all-13b-snoozy基于LLaMA-13B模型的微调结果 https://www.datalearner.com/ai-models/pretrained-models/GPT4All-13B GPL ❌
gpt4all-lora-epoch-3基于LLaMA微调的模型,是一个中间结果,仅迭代3次EpochsGPL-3.0 ❌


欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

GPT4All所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

GPT4All相关的任务
问答系统

问答系统

Question Answering

35个资源