Visual ChatGPT - Visual ChatGPT

模型详细情况和参数

Visual ChatGPT

模型全称
Visual ChatGPT
模型简称
Visual ChatGPT
模型类型
基础大模型
发布日期
2023-03-08
预训练文件大小
未知
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
1750.0
模型代码开源协议
预训练结果开源商用情况
-
模型GitHub链接
暂无
模型HuggingFace链接
暂无
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
发布机构

Visual ChatGPT 简介

Visual ChatGPT是微软发布的利用ChatGPT构建的一个多模态模型。原版的ChatGPT只能处理自然语言领域的问题,不涉及图片、视频等其它数据。微软提出的Visual ChatGPT是一个新的模型,它将ChatGPT与Transformer、ControlNet和Stable Diffusion等VFM(Visual Foundation Models)相结合。本质上,人工智能模型作为用户之间的桥梁,允许他们通过聊天进行交流并产生视觉效果。


ChatGPT正在吸引着跨领域的兴趣,因为它提供了一个具有显著的对话能力和跨领域推理能力的语言界面。然而,由于ChatGPT是用语言来训练的,所以它目前还不能处理或生成来自视觉世界的图像。同时,视觉基础模型,如Visual Transformer或Stable Diffusion,虽然显示了强大的视觉理解和生成能力,但它们只是特定任务的专家,有一轮固定的输入和输出。为此,我们建立了一个名为Visual ChatGPT的系统,结合了不同的视觉基础模型,使用户能够通过以下方式与ChatGPT互动:1)不仅发送和接收语言,也发送和接收图像;2)提供复杂的视觉问题或视觉编辑指令,需要多个人工智能模型的协作,具有多步骤。3)提供反馈并要求纠正结果。我们设计了一系列提示,将视觉模型信息注入ChatGPT,考虑到多输入/输出的模型和需要视觉反馈的模型。实验表明,Visual ChatGPT为研究ChatGPT在可视化基础模型帮助下的可视化作用打开了大门。


visual-chat-gpt



目前,Visual ChatGPT的能力如下:

  • 除了文本之外,Visual ChatGPT还可以生成和接收图像。
  • 复杂的视觉查询或编辑指令,要求不同的人工智能模型在多个阶段协作,都可以由Visual ChatGPT处理。
  • 为了处理有许多输入/输出的模型和那些需要视觉反馈的模型,研究人员开发了一系列提示,将视觉模型信息整合到ChatGPT中。他们通过测试发现,Visual ChatGPT促进了利用视觉基础模型对ChatGPT的视觉能力的调查。


它还不完美。研究人员观察到他们的工作存在某些问题,例如由于视觉基础模型(VFMs)的失败和提示的多样性而导致生成结果的不一致。他们得出的结论是,需要一个自我纠正的模块来保证执行结果符合人类的目标,并进行任何必要的纠正。由于需要持续的路线修正,包括这样一个模块可能会延长模型的推理时间。研究小组打算在随后的研究中对这一问题进行更深入的研究。


目前微软开放了一个在线系统供大家测试,不过需要你提供自己的ChatGPT的API Key。


你也可以自己使用Python脚本调用模型:


# create a new environment
conda create -n visgpt python=3.8

# activate the new environment
conda activate visgpt

#  prepare the basic environments
pip install -r requirement.txt

# download the visual foundation models
bash download.sh

# prepare your private openAI private key
export OPENAI_API_KEY={Your_Private_Openai_Key}

# create a folder to save images
mkdir ./image

# Start Visual ChatGPT !
python visual_chatgpt.py



Visual ChatGPT模型的GitHub地址: https://github.com/microsoft/visual-chatgpt 

Visual ChatGPT模型的HuggingFace地址: https://huggingface.co/spaces/RamAnanth1/visual-chatGPT 



欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

Visual ChatGPT所属的领域
Visual ChatGPT相关的任务