GPT4All - GPT4All

模型详细情况和参数

GPT4All

模型全称
GPT4All
模型简称
GPT4All
模型类型
基础大模型
发布日期
2023-03-29
预训练文件大小
8GB
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
70.0
模型代码开源协议
Apache 2.0
预训练结果开源商用情况
免费商用授权 - 免费商用授权
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
...
LLaMA
查看详情
发布机构

GPT4All 简介

----------------2023年7月15日GPT4All增加支持embedding能力----------------

2023年7月15日,NomicAI官方宣布最新版的GPT4All支持embedding模型,只需要1G内存即可运行: https://www.datalearner.com/blog/1051684590410303 


----------------2023年6月1日GPT4All更新支持读取本地文档----------------

-2023年6月1日,NomicAI官方宣布最新版的GPT4All支持加载本地文档,然后根据本地文档读取内容,使用不同的大模型来针对这个文档进行问答!


----------------2023年5月20日更新-----------------------

随着NomicAI运营思路的转变GPT4All也从单一的模型转换成一个支持本地运行各大开源“ChatGPT”模型的软件。

关于GPT4All的具体使用和信息参考: https://www.datalearner.com/blog/1051684590410303 

支持的模型如下:

模型名称参数数量量化方式文件大小基础模型内存要求下载地址
Wizard v1.1130亿4bit量化(q4_0)6.82GBLLaMA16GB下载地址(DataLearner整理)
GPT4All Falcon70亿4bit量化(q4_0)3.78GBFalcon8GB下载地址(DataLearner整理)
Hermes130亿4bit量化(q4_0)7.58GBLLaMA16GB下载地址(DataLearner整理)
Groovy70亿4bit量化(q4_0)3.53GBGPT-J8GB下载地址(DataLearner整理)
Snoozy130亿4bit量化(q4_0)7.58GBLLaMA16GB下载地址(DataLearner整理)
MPT Chat70亿4bit量化(q4_0)4.52GBMPT8GB下载地址(DataLearner整理)
Mini Orca70亿4bit量化(q4_0)3.53GBOpenLLaMa8GB下载地址(DataLearner整理)
Mini Orca (Small)30亿4bit量化(q4_0)1.8GBOpenLLaMa4GB下载地址(DataLearner整理)
Mini Orca (Large)130亿4bit量化(q4_0)6.82GBOpenLLaMa16GB下载地址(DataLearner整理)
Vicuna70亿4bit量化(q4_2)3.92GBLLaMA8GB下载地址(DataLearner整理)
Vicuna (large)130亿4bit量化(q4_2)7.58GBLLaMA16GB下载地址(DataLearner整理)
Wizard70亿4bit量化(q4_2)3.92GBLLaMA8GB下载地址(DataLearner整理)
Stable Vicuna130亿4bit量化(q4_2)7.58GBLLaMA16GB下载地址(DataLearner整理)
MPT Instruct70亿4bit量化(q4_0)4.52GBMPT8GB下载地址(DataLearner整理)
MPT Base70亿4bit量化(q4_0)4.52GBMPT8GB下载地址(DataLearner整理)
Nous Vicuna130亿4bit量化(q4_0)7.58GBLLaMA16GB下载地址(DataLearner整理)
Wizard Uncensored130亿4bit量化(q4_0)7.58GBLLaMA16GB下载地址(DataLearner整理)
Replit30亿f16(无量化)4.84GBReplit4GB下载地址(DataLearner整理)
Bert1百万f16(无量化)0.04GBBert1GB下载地址(DataLearner整理)





GPT4All是Nomic AI公司开源的一个类似ChatGPT的模型,它是基于MetaAI开源的LLaMA微调得到的其最大的特点是开源,并且其4-bit量化版本可以在CPU上运行!同时,因为他们精心挑选了80万的 prompt-response对进行微调训练,因此其效果十分好!


以下是GPT4All的具体信息。


Nomic AI精心挑选了大约80万个提示-响应样本( prompt-response ),以生成43万个高质量的助手式提示/生成训练对,包括代码、对话和故事训练了GPT4All。发现它的效果很好。


最主要的是,该模型完全开源,包括代码、训练数据、预训练的checkpoints以及4-bit量化结果。


他们发布的4-bit量化预训练结果可以使用CPU作为推理!


GPT4All的主要训练过程如下:


最开始,Nomic AI使用OpenAI的GPT-3.5-Turbo的API收集了大约100万个prompt-response对。为了收集这些数据,他们利用了3个公开数据集收集:

LAION OIG的unified_chip2子集: https://huggingface.co/datasets/laion/OIG 
Stackoverflow下面的编程问答数据: https://huggingface.co/datasets/pacovaldez/stackoverflow-questions 
基于Big-science/P3的指令调整: https://huggingface.co/bigscience/bloomz-p3 


然后,受到斯坦福大学的Alpaca项目(  https://www.datalearner.com/ai-models/pretrained-models/stanford-alpaca  )的启发,在收集了初始的提示生成数据集后,删除了GPT-3.5-Turbo无法响应提示并生成格式错误输出的所有示例。这将总样本数量减少到了806,199个高质量的提示生成对。


接下来,从最终训练数据集中删除整个Bigscience/P3子集,因为它的输出多样性很低;P3包含许多同质化的提示,导致GPT-3.5-Turbo产生短而同质的响应。这个排除产生了一个包含437,605个提示生成对的最终子集,如图2所示。



基于上述数据,他们用Meta开源的LLaMA模型(70亿参数规模: https://www.datalearner.com/ai-models/pretrained-models/LLaMA )做了微调。


GPT4All目前有好几个版本:

GPT4All模型名称模型简介DataLearner模型信息卡地址开源协议
gpt4all-j基于GPT-J模型做Chat优化的模型,也基于不同的数据集训练 https://www.datalearner.com/ai-models/pretrained-models/GPT4All-J Apache-2 ✅
gpt4all-j-lora使用了LoRA技术微调的GPT-JApache-2 ✅
gpt4all-lora基于LLaMA微调的模型,迭代了4次Epochshttps://www.datalearner.com/ai-models/pretrained-models/GPT4All-LoRAGPL-3.0 ❌
gpt4all-13b-snoozy基于LLaMA-13B模型的微调结果 https://www.datalearner.com/ai-models/pretrained-models/GPT4All-13B GPL ❌
gpt4all-lora-epoch-3基于LLaMA微调的模型,是一个中间结果,仅迭代3次EpochsGPL-3.0 ❌


欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

GPT4All所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

GPT4All相关的任务
问答系统

问答系统

Question Answering

35个资源