Stable Cascade 简介
Stable Cascade 是一种基于 Würstchen 架构的新型文本到图像模型,采用了三阶段方法,旨在简化模型的训练和微调,使之能够在消费级硬件上轻松运行。这一模型在非商业许可下发布,仅限于非商业用途。
主要亮点
- 新模型发布:Stable Cascade 在研究预览中发布,采用三阶段方法,提高了质量、灵活性、微调能力和效率,同时进一步降低了硬件要求。
- 技术细节:Stable Cascade 包括三个阶段(A、B、C),通过分层压缩图像,实现了使用高度压缩的潜在空间达到显著的输出效果。
- 训练和微调:提供了针对不同阶段的训练和微调脚本,特别是Stage C,可以单独进行训练或微调,显著降低成本。
- 参数规模与效率:Stage C 提供1B与3.6B参数两种模型,Stage B 提供700M与1.5B参数两种模型,强调了效率和质量的平衡。
性能比较
- Stable Cascade 在几乎所有模型比较中,无论是在提示对齐还是美学质量方面,都表现最佳。
- 尽管其最大模型参数比Stable Diffusion XL多出1.4亿,但仍然展现出更快的推理速度。
附加功能
- 图像变体生成:通过使用CLIP提取给定图像的嵌入,然后返回给模型生成变体。
- 图像到图像生成:通过向给定图像添加噪声作为生成的起点。
代码支持
- 为了进一步降低实验的要求,Stable Cascade 发布了全部的训练、微调、ControlNet和LoRA代码。
- 发布的ControlNets包括:修复/外扩、Canny边缘检测、2倍超分辨率等功能。
结论
Stable Cascade 通过其三阶段方法和模块化设计,展现了在文本到图像生成领域的新里程碑。这一模型不仅提供了高质量的输出,还通过其创新的架构大幅降低了训练和推理的硬件要求,使得更多的用户能够在消费级硬件上进行实验和创作。尽管目前仅限于非商业用途,但Stable Cascade 的发布为进一步的研究和开发提供了强大的工具和可能性。