Stable Diffusion2.1发布！

Stable Diffusion是由StabilityAI公司开源的文本生成图像预训练模型。由于其惊艳的效果与DALL·E2不相上下，但是完全免费开源，吸引力一大批受众，对OpenAI也造成了一定压力，几乎也加快了OpenAI开放自己DALL·E系列的脚本。在2022年11月24日，Stable Diffusion2.0大版本更新刚发布，今天有了新的版本！

刚刚，StabilityAI宣布Stable Diffusion2.1发布。距离Stable Diffusion2.0大版本发布刚2个星期，2.1版本就发布了，2.1版本有诸多改进功能。

主要包括如下：

[TOC]

我们将分别简单介绍一下。

改进一：更少的成人内容过滤，更丰富的人物结果

首先，根据官方描述，Stable Diffusion是基于LAION-5B数据训练的，但是做了严格的成人内容过滤，尽管这样的操作保护了内容的结果，但也造成了大量涉及到“人”的元素的减少，因此，在2.1版本中，训练数据中采取了更加宽松的成人内容过滤策略，使得关于“人”的图像更加丰富。如下图所示：

上图的提示模板如下：

Prompt: a portrait of a beautiful blonde woman, fine - art photography, soft portrait shot 8 k, mid length, ultrarealistic uhd faces, unsplash, kodak ultra max 800, 85 mm, intricate, casual pose, centered symmetrical composition, stunning photos, masterpiece, grainy, centered composition : 2 | blender, cropped, lowres, poorly drawn face, out of frame, poorly drawn hands, blurry, bad art, blurred, text, watermark, disfigured, deformed, closed eyes : -2 / Stable Diffusion v2.1-768

可以看到更加丰富细节。

改进二、增强“否定提示（negative prompts）”的能力

其次，这个版本对否定提示（negative prompts）提示能力做了增强。在2.0版本中，大家发现否定提示可以帮助我们生成更加好的结果。否定提示与提示相反；它们允许用户告诉模型不生成什么。负面提示通常会消除不必要的细节，如手部破损、手指过多、失焦和图像模糊。

下图就是否定提示的案例：

并排比较没有否定提示（左）和有否定提示（右）的提示。在这种情况下，否定提示用于告诉模型限制树木、灌木、树叶和绿色植物的突出程度，同时保持相同的初始输入提示。这个能力让我们细节更加完美。

改进三：更多的训练时长

最后，2.1版本的模型是基于2.0版本微调的结果，但是基于相同的数据集多训练了5.5万个steps（punsafe=0.1），然后继续以punsafe=0.98训练了15.5万个steps，所以模型能力更强！

总结

相比较DALL·E2，Stable Diffusion系列的图像生成结果不相上下！但是Stable Diffusion是开源了预训练结果的模型，因此受欢迎程度非常高。

Stable Diffusion2.1模型卡片（详细内容）：https://www.datalearner.com/ai-resources/pretrained-models/stable-diffusion-2-1