模型发布时间: 2022-12-20
模型发布机构: Stability AI
模型所属类型: 多模态学习
Stable Diffusion是由LMU Munich的计算机视觉小组、Stability AI和Runway三家协同开发的开源计算机视觉模型。模型原型来自LMU Munich的计算机视觉小组的研究人员在论文High-Resolution Image Synthesis with Latent Diffusion Models中提出的算法。
Stable Diffusion是一个基于深度学习的文本-图片生成模型(任务简介: 文本生成图片 )。主要是基于描述的文本生成详细的图像结果。可以用于图像修复、图像补全、图像到图像的翻译等任务。
Stable Diffusion的代码和模型权重都是公开发布,它可以在大多数配备有至少8GB VRAM的适度GPU的消费硬件上运行。这标志着与以前的专有文本-图像模型(如DALL-E和Midjourney)不同,这些模型只能通过云服务访问。
目前,Stable Diffusion在迅速迭代,已经发布的版本有很多,效果也十分经验。