模型详细情况和参数
Visual ChatGPT是微软发布的利用ChatGPT构建的一个多模态模型。原版的ChatGPT只能处理自然语言领域的问题,不涉及图片、视频等其它数据。微软提出的Visual ChatGPT是一个新的模型,它将ChatGPT与Transformer、ControlNet和Stable Diffusion等VFM(Visual Foundation Models)相结合。本质上,人工智能模型作为用户之间的桥梁,允许他们通过聊天进行交流并产生视觉效果。
ChatGPT正在吸引着跨领域的兴趣,因为它提供了一个具有显著的对话能力和跨领域推理能力的语言界面。然而,由于ChatGPT是用语言来训练的,所以它目前还不能处理或生成来自视觉世界的图像。同时,视觉基础模型,如Visual Transformer或Stable Diffusion,虽然显示了强大的视觉理解和生成能力,但它们只是特定任务的专家,有一轮固定的输入和输出。为此,我们建立了一个名为Visual ChatGPT的系统,结合了不同的视觉基础模型,使用户能够通过以下方式与ChatGPT互动:1)不仅发送和接收语言,也发送和接收图像;2)提供复杂的视觉问题或视觉编辑指令,需要多个人工智能模型的协作,具有多步骤。3)提供反馈并要求纠正结果。我们设计了一系列提示,将视觉模型信息注入ChatGPT,考虑到多输入/输出的模型和需要视觉反馈的模型。实验表明,Visual ChatGPT为研究ChatGPT在可视化基础模型帮助下的可视化作用打开了大门。
目前,Visual ChatGPT的能力如下:
它还不完美。研究人员观察到他们的工作存在某些问题,例如由于视觉基础模型(VFMs)的失败和提示的多样性而导致生成结果的不一致。他们得出的结论是,需要一个自我纠正的模块来保证执行结果符合人类的目标,并进行任何必要的纠正。由于需要持续的路线修正,包括这样一个模块可能会延长模型的推理时间。研究小组打算在随后的研究中对这一问题进行更深入的研究。
目前微软开放了一个在线系统供大家测试,不过需要你提供自己的ChatGPT的API Key。
你也可以自己使用Python脚本调用模型:
# create a new environment
conda create -n visgpt python=3.8
# activate the new environment
conda activate visgpt
# prepare the basic environments
pip install -r requirement.txt
# download the visual foundation models
bash download.sh
# prepare your private openAI private key
export OPENAI_API_KEY={Your_Private_Openai_Key}
# create a folder to save images
mkdir ./image
# Start Visual ChatGPT !
python visual_chatgpt.py
Visual ChatGPT模型的GitHub地址: https://github.com/microsoft/visual-chatgpt
Visual ChatGPT模型的HuggingFace地址: https://huggingface.co/spaces/RamAnanth1/visual-chatGPT