DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
工具
语言中文

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表Visual ChatGPT
VI

Visual ChatGPT

Visual ChatGPT

发布时间: 2023-03-08更新于: 2023-03-14 09:05:22.357546
在线体验GitHubHugging FaceCompare
模型参数
1750.0亿
上下文长度
2K
中文支持
不支持
推理能力

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

Visual ChatGPT

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
基础大模型
发布时间
2023-03-08
模型文件大小
暂无数据
MoE架构
否
总参数 / 激活参数
1750.0 亿 / 不涉及
知识截止
暂无数据
Visual ChatGPT

开源和体验地址

代码开源状态
暂无数据
预训练权重开源
暂无数据
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址
Visual ChatGPT

官方介绍与博客

官方论文
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
DataLearnerAI博客
暂无介绍博客
Visual ChatGPT

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。
Visual ChatGPT

评测结果

当前尚无可展示的评测数据。
Visual ChatGPT

发布机构

Microsoft Azure
Microsoft Azure
查看发布机构详情
Visual ChatGPT

模型解读

Visual ChatGPT是微软发布的利用ChatGPT构建的一个多模态模型。原版的ChatGPT只能处理自然语言领域的问题,不涉及图片、视频等其它数据。微软提出的Visual ChatGPT是一个新的模型,它将ChatGPT与Transformer、ControlNet和Stable Diffusion等VFM(Visual Foundation Models)相结合。本质上,人工智能模型作为用户之间的桥梁,允许他们通过聊天进行交流并产生视觉效果。


ChatGPT正在吸引着跨领域的兴趣,因为它提供了一个具有显著的对话能力和跨领域推理能力的语言界面。然而,由于ChatGPT是用语言来训练的,所以它目前还不能处理或生成来自视觉世界的图像。同时,视觉基础模型,如Visual Transformer或Stable Diffusion,虽然显示了强大的视觉理解和生成能力,但它们只是特定任务的专家,有一轮固定的输入和输出。为此,我们建立了一个名为Visual ChatGPT的系统,结合了不同的视觉基础模型,使用户能够通过以下方式与ChatGPT互动:1)不仅发送和接收语言,也发送和接收图像;2)提供复杂的视觉问题或视觉编辑指令,需要多个人工智能模型的协作,具有多步骤。3)提供反馈并要求纠正结果。我们设计了一系列提示,将视觉模型信息注入ChatGPT,考虑到多输入/输出的模型和需要视觉反馈的模型。实验表明,Visual ChatGPT为研究ChatGPT在可视化基础模型帮助下的可视化作用打开了大门。


visual-chat-gpt



目前,Visual ChatGPT的能力如下:

  • 除了文本之外,Visual ChatGPT还可以生成和接收图像。
  • 复杂的视觉查询或编辑指令,要求不同的人工智能模型在多个阶段协作,都可以由Visual ChatGPT处理。
  • 为了处理有许多输入/输出的模型和那些需要视觉反馈的模型,研究人员开发了一系列提示,将视觉模型信息整合到ChatGPT中。他们通过测试发现,Visual ChatGPT促进了利用视觉基础模型对ChatGPT的视觉能力的调查。


它还不完美。研究人员观察到他们的工作存在某些问题,例如由于视觉基础模型(VFMs)的失败和提示的多样性而导致生成结果的不一致。他们得出的结论是,需要一个自我纠正的模块来保证执行结果符合人类的目标,并进行任何必要的纠正。由于需要持续的路线修正,包括这样一个模块可能会延长模型的推理时间。研究小组打算在随后的研究中对这一问题进行更深入的研究。


目前微软开放了一个在线系统供大家测试,不过需要你提供自己的ChatGPT的API Key。


你也可以自己使用Python脚本调用模型:


# create a new environment
conda create -n visgpt python=3.8

# activate the new environment
conda activate visgpt

#  prepare the basic environments
pip install -r requirement.txt

# download the visual foundation models
bash download.sh

# prepare your private openAI private key
export OPENAI_API_KEY={Your_Private_Openai_Key}

# create a folder to save images
mkdir ./image

# Start Visual ChatGPT !
python visual_chatgpt.py



Visual ChatGPT模型的GitHub地址: https://github.com/microsoft/visual-chatgpt 

Visual ChatGPT模型的HuggingFace地址: https://huggingface.co/spaces/RamAnanth1/visual-chatGPT 



基础模型

GPT
GPT
查看详情

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码