GP

GPT4All

基础大模型

GPT4All

发布时间: 2023-03-29

模型参数(Parameters)
70.0
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

2K tokens

最长输出结果
暂无数据
模型类型

基础大模型

发布时间

2023-03-29

模型预文件大小

8GB

开源和体验地址

代码开源状态
预训练权重开源
免费商用授权 - 免费商用授权
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

GPT4All模型在各大评测榜单的评分

发布机构

模型介绍

----------------2023年7月15日GPT4All增加支持embedding能力----------------

2023年7月15日,NomicAI官方宣布最新版的GPT4All支持embedding模型,只需要1G内存即可运行: https://www.datalearner.com/blog/1051684590410303 


----------------2023年6月1日GPT4All更新支持读取本地文档----------------

-2023年6月1日,NomicAI官方宣布最新版的GPT4All支持加载本地文档,然后根据本地文档读取内容,使用不同的大模型来针对这个文档进行问答!


----------------2023年5月20日更新-----------------------

随着NomicAI运营思路的转变GPT4All也从单一的模型转换成一个支持本地运行各大开源“ChatGPT”模型的软件。

关于GPT4All的具体使用和信息参考: https://www.datalearner.com/blog/1051684590410303 

支持的模型如下:

模型名称参数数量量化方式文件大小基础模型内存要求下载地址
Wizard v1.1130亿4bit量化(q4_0)6.82GBLLaMA16GB下载地址(DataLearner整理)
GPT4All Falcon70亿4bit量化(q4_0)3.78GBFalcon8GB下载地址(DataLearner整理)
Hermes130亿4bit量化(q4_0)7.58GBLLaMA16GB下载地址(DataLearner整理)
Groovy70亿4bit量化(q4_0)3.53GBGPT-J8GB下载地址(DataLearner整理)
Snoozy130亿4bit量化(q4_0)7.58GBLLaMA16GB下载地址(DataLearner整理)
MPT Chat70亿4bit量化(q4_0)4.52GBMPT8GB下载地址(DataLearner整理)
Mini Orca70亿4bit量化(q4_0)3.53GBOpenLLaMa8GB下载地址(DataLearner整理)
Mini Orca (Small)30亿4bit量化(q4_0)1.8GBOpenLLaMa4GB下载地址(DataLearner整理)
Mini Orca (Large)130亿4bit量化(q4_0)6.82GBOpenLLaMa16GB下载地址(DataLearner整理)
Vicuna70亿4bit量化(q4_2)3.92GBLLaMA8GB下载地址(DataLearner整理)
Vicuna (large)130亿4bit量化(q4_2)7.58GBLLaMA16GB下载地址(DataLearner整理)
Wizard70亿4bit量化(q4_2)3.92GBLLaMA8GB下载地址(DataLearner整理)
Stable Vicuna130亿4bit量化(q4_2)7.58GBLLaMA16GB下载地址(DataLearner整理)
MPT Instruct70亿4bit量化(q4_0)4.52GBMPT8GB下载地址(DataLearner整理)
MPT Base70亿4bit量化(q4_0)4.52GBMPT8GB下载地址(DataLearner整理)
Nous Vicuna130亿4bit量化(q4_0)7.58GBLLaMA16GB下载地址(DataLearner整理)
Wizard Uncensored130亿4bit量化(q4_0)7.58GBLLaMA16GB下载地址(DataLearner整理)
Replit30亿f16(无量化)4.84GBReplit4GB下载地址(DataLearner整理)
Bert1百万f16(无量化)0.04GBBert1GB下载地址(DataLearner整理)





GPT4All是Nomic AI公司开源的一个类似ChatGPT的模型,它是基于MetaAI开源的LLaMA微调得到的其最大的特点是开源,并且其4-bit量化版本可以在CPU上运行!同时,因为他们精心挑选了80万的 prompt-response对进行微调训练,因此其效果十分好!


以下是GPT4All的具体信息。


Nomic AI精心挑选了大约80万个提示-响应样本( prompt-response ),以生成43万个高质量的助手式提示/生成训练对,包括代码、对话和故事训练了GPT4All。发现它的效果很好。


最主要的是,该模型完全开源,包括代码、训练数据、预训练的checkpoints以及4-bit量化结果。


他们发布的4-bit量化预训练结果可以使用CPU作为推理!


GPT4All的主要训练过程如下:


最开始,Nomic AI使用OpenAI的GPT-3.5-Turbo的API收集了大约100万个prompt-response对。为了收集这些数据,他们利用了3个公开数据集收集:

LAION OIG的unified_chip2子集: https://huggingface.co/datasets/laion/OIG 
Stackoverflow下面的编程问答数据: https://huggingface.co/datasets/pacovaldez/stackoverflow-questions 
基于Big-science/P3的指令调整: https://huggingface.co/bigscience/bloomz-p3 


然后,受到斯坦福大学的Alpaca项目(  https://www.datalearner.com/ai-models/pretrained-models/stanford-alpaca  )的启发,在收集了初始的提示生成数据集后,删除了GPT-3.5-Turbo无法响应提示并生成格式错误输出的所有示例。这将总样本数量减少到了806,199个高质量的提示生成对。


接下来,从最终训练数据集中删除整个Bigscience/P3子集,因为它的输出多样性很低;P3包含许多同质化的提示,导致GPT-3.5-Turbo产生短而同质的响应。这个排除产生了一个包含437,605个提示生成对的最终子集,如图2所示。



基于上述数据,他们用Meta开源的LLaMA模型(70亿参数规模: https://www.datalearner.com/ai-models/pretrained-models/LLaMA )做了微调。


GPT4All目前有好几个版本:

GPT4All模型名称模型简介DataLearner模型信息卡地址开源协议
gpt4all-j基于GPT-J模型做Chat优化的模型,也基于不同的数据集训练 https://www.datalearner.com/ai-models/pretrained-models/GPT4All-J Apache-2 ✅
gpt4all-j-lora使用了LoRA技术微调的GPT-JApache-2 ✅
gpt4all-lora基于LLaMA微调的模型,迭代了4次Epochshttps://www.datalearner.com/ai-models/pretrained-models/GPT4All-LoRAGPL-3.0 ❌
gpt4all-13b-snoozy基于LLaMA-13B模型的微调结果 https://www.datalearner.com/ai-models/pretrained-models/GPT4All-13B GPL ❌
gpt4all-lora-epoch-3基于LLaMA微调的模型,是一个中间结果,仅迭代3次EpochsGPL-3.0 ❌


Foundation Model

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat