Stable Diffusion2.1发布!
Stable Diffusion是由StabilityAI公司开源的文本生成图像预训练模型。由于其惊艳的效果与DALL·E2不相上下,但是完全免费开源,吸引力一大批受众,对OpenAI也造成了一定压力,几乎也加快了OpenAI开放自己DALL·E系列的脚本。在2022年11月24日,Stable Diffusion2.0大版本更新刚发布,今天有了新的版本!
刚刚,StabilityAI宣布Stable Diffusion2.1发布。距离Stable Diffusion2.0大版本发布刚2个星期,2.1版本就发布了,2.1版本有诸多改进功能。
主要包括如下:
我们将分别简单介绍一下。
改进一:更少的成人内容过滤,更丰富的人物结果
首先,根据官方描述,Stable Diffusion是基于LAION-5B数据训练的,但是做了严格的成人内容过滤,尽管这样的操作保护了内容的结果,但也造成了大量涉及到“人”的元素的减少,因此,在2.1版本中,训练数据中采取了更加宽松的成人内容过滤策略,使得关于“人”的图像更加丰富。如下图所示:

上图的提示模板如下:
Prompt: a portrait of a beautiful blonde woman, fine - art photography, soft portrait shot 8 k, mid length, ultrarealistic uhd faces, unsplash, kodak ultra max 800, 85 mm, intricate, casual pose, centered symmetrical composition, stunning photos, masterpiece, grainy, centered composition : 2 | blender, cropped, lowres, poorly drawn face, out of frame, poorly drawn hands, blurry, bad art, blurred, text, watermark, disfigured, deformed, closed eyes : -2 / Stable Diffusion v2.1-768
可以看到更加丰富细节。
改进二、增强“否定提示(negative prompts)”的能力
其次,这个版本对否定提示(negative prompts)
提示能力做了增强。在2.0版本中,大家发现否定提示可以帮助我们生成更加好的结果。否定提示与提示相反;它们允许用户告诉模型不生成什么。负面提示通常会消除不必要的细节,如手部破损、手指过多、失焦和图像模糊。
下图就是否定提示的案例:

并排比较没有否定提示(左)和有否定提示(右)的提示。在这种情况下,否定提示用于告诉模型限制树木、灌木、树叶和绿色植物的突出程度,同时保持相同的初始输入提示。这个能力让我们细节更加完美。
改进三:更多的训练时长
最后,2.1版本的模型是基于2.0版本微调的结果,但是基于相同的数据集多训练了5.5万个steps(punsafe=0.1
),然后继续以punsafe=0.98
训练了15.5万个steps,所以模型能力更强!
总结
相比较DALL·E2,Stable Diffusion系列的图像生成结果不相上下!但是Stable Diffusion是开源了预训练结果的模型,因此受欢迎程度非常高。
Stable Diffusion2.1模型卡片(详细内容):https://www.datalearner.com/ai-resources/pretrained-models/stable-diffusion-2-1
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
