Stable Diffusion2.1发布!
Stable Diffusion是由StabilityAI公司开源的文本生成图像预训练模型。由于其惊艳的效果与DALL·E2不相上下,但是完全免费开源,吸引力一大批受众,对OpenAI也造成了一定压力,几乎也加快了OpenAI开放自己DALL·E系列的脚本。在2022年11月24日,Stable Diffusion2.0大版本更新刚发布,今天有了新的版本!
刚刚,StabilityAI宣布Stable Diffusion2.1发布。距离Stable Diffusion2.0大版本发布刚2个星期,2.1版本就发布了,2.1版本有诸多改进功能。
主要包括如下:
我们将分别简单介绍一下。
改进一:更少的成人内容过滤,更丰富的人物结果
首先,根据官方描述,Stable Diffusion是基于LAION-5B数据训练的,但是做了严格的成人内容过滤,尽管这样的操作保护了内容的结果,但也造成了大量涉及到“人”的元素的减少,因此,在2.1版本中,训练数据中采取了更加宽松的成人内容过滤策略,使得关于“人”的图像更加丰富。如下图所示:

可以看到更加丰富细节。
改进二、增强“否定提示(negative prompts)”的能力
其次,这个版本对否定提示(negative prompts)提示能力做了增强。在2.0版本中,大家发现否定提示可以帮助我们生成更加好的结果。否定提示与提示相反;它们允许用户告诉模型不生成什么。负面提示通常会消除不必要的细节,如手部破损、手指过多、失焦和图像模糊。
下图就是否定提示的案例:

改进三:更多的训练时长
最后,2.1版本的模型是基于2.0版本微调的结果,但是基于相同的数据集多训练了5.5万个steps(punsafe=0.1),然后继续以punsafe=0.98训练了15.5万个steps,所以模型能力更强!
总结
相比较DALL·E2,Stable Diffusion系列的图像生成结果不相上下!但是Stable Diffusion是开源了预训练结果的模型,因此受欢迎程度非常高。
Stable Diffusion2.1模型卡片(详细内容):https://www.datalearner.com/ai-resources/pretrained-models/stable-diffusion-2-1
