VI

Visual ChatGPT

Visual ChatGPT

发布时间: 2023-03-08更新于: 2023-03-14 09:05:22.357546

在线体验GitHubHugging FaceCompare

模型参数

1750.0亿

上下文长度

2K

中文支持

不支持

推理能力

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Visual ChatGPT

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

2K tokens

最大输出长度

暂无数据

模型类型

基础大模型

发布时间

2023-03-08

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

1750.0 亿 / 不涉及

知识截止

暂无数据

Visual ChatGPT

开源和体验地址

代码开源状态

暂无数据

预训练权重开源

暂无数据

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

暂无在线体验地址

Visual ChatGPT

官方介绍与博客

官方论文

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

DataLearnerAI博客

暂无介绍博客

Visual ChatGPT

API接口信息

接口速度

暂无数据

暂无公开的 API 定价信息。

Visual ChatGPT

评测结果

当前尚无可展示的评测数据。

Visual ChatGPT

发布机构

Microsoft Azure

查看发布机构详情

Visual ChatGPT

模型解读

Visual ChatGPT是微软发布的利用ChatGPT构建的一个多模态模型。原版的ChatGPT只能处理自然语言领域的问题，不涉及图片、视频等其它数据。微软提出的Visual ChatGPT是一个新的模型，它将ChatGPT与Transformer、ControlNet和Stable Diffusion等VFM（Visual Foundation Models）相结合。本质上，人工智能模型作为用户之间的桥梁，允许他们通过聊天进行交流并产生视觉效果。

ChatGPT正在吸引着跨领域的兴趣，因为它提供了一个具有显著的对话能力和跨领域推理能力的语言界面。然而，由于ChatGPT是用语言来训练的，所以它目前还不能处理或生成来自视觉世界的图像。同时，视觉基础模型，如Visual Transformer或Stable Diffusion，虽然显示了强大的视觉理解和生成能力，但它们只是特定任务的专家，有一轮固定的输入和输出。为此，我们建立了一个名为Visual ChatGPT的系统，结合了不同的视觉基础模型，使用户能够通过以下方式与ChatGPT互动：1）不仅发送和接收语言，也发送和接收图像；2）提供复杂的视觉问题或视觉编辑指令，需要多个人工智能模型的协作，具有多步骤。3）提供反馈并要求纠正结果。我们设计了一系列提示，将视觉模型信息注入ChatGPT，考虑到多输入/输出的模型和需要视觉反馈的模型。实验表明，Visual ChatGPT为研究ChatGPT在可视化基础模型帮助下的可视化作用打开了大门。

visual-chat-gpt

目前，Visual ChatGPT的能力如下：

除了文本之外，Visual ChatGPT还可以生成和接收图像。
复杂的视觉查询或编辑指令，要求不同的人工智能模型在多个阶段协作，都可以由Visual ChatGPT处理。
为了处理有许多输入/输出的模型和那些需要视觉反馈的模型，研究人员开发了一系列提示，将视觉模型信息整合到ChatGPT中。他们通过测试发现，Visual ChatGPT促进了利用视觉基础模型对ChatGPT的视觉能力的调查。

它还不完美。研究人员观察到他们的工作存在某些问题，例如由于视觉基础模型（VFMs）的失败和提示的多样性而导致生成结果的不一致。他们得出的结论是，需要一个自我纠正的模块来保证执行结果符合人类的目标，并进行任何必要的纠正。由于需要持续的路线修正，包括这样一个模块可能会延长模型的推理时间。研究小组打算在随后的研究中对这一问题进行更深入的研究。

目前微软开放了一个在线系统供大家测试，不过需要你提供自己的ChatGPT的API Key。

你也可以自己使用Python脚本调用模型：

# create a new environment
conda create -n visgpt python=3.8

# activate the new environment
conda activate visgpt

#  prepare the basic environments
pip install -r requirement.txt

# download the visual foundation models
bash download.sh

# prepare your private openAI private key
export OPENAI_API_KEY={Your_Private_Openai_Key}

# create a folder to save images
mkdir ./image

# Start Visual ChatGPT !
python visual_chatgpt.py

Visual ChatGPT模型的GitHub地址： https://github.com/microsoft/visual-chatgpt

Visual ChatGPT模型的HuggingFace地址： https://huggingface.co/spaces/RamAnanth1/visual-chatGPT

基础模型

GPT

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码