St

Stable Cascade

多模态大模型

Stable Cascade

发布时间: 2024-02-12

模型参数(Parameters)
5.0
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

2K tokens

最长输出结果
暂无数据
模型类型

多模态大模型

发布时间

2024-02-12

模型预文件大小

20GB

开源和体验地址

代码开源状态
预训练权重开源
Stability AI Membership - 收费商用授权
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

Stable Cascade模型在各大评测榜单的评分

发布机构

模型介绍

Stable Cascade 是一种基于 Würstchen 架构的新型文本到图像模型,采用了三阶段方法,旨在简化模型的训练和微调,使之能够在消费级硬件上轻松运行。这一模型在非商业许可下发布,仅限于非商业用途。

主要亮点

  • 新模型发布:Stable Cascade 在研究预览中发布,采用三阶段方法,提高了质量、灵活性、微调能力和效率,同时进一步降低了硬件要求。
  • 技术细节:Stable Cascade 包括三个阶段(A、B、C),通过分层压缩图像,实现了使用高度压缩的潜在空间达到显著的输出效果。
  • 训练和微调:提供了针对不同阶段的训练和微调脚本,特别是Stage C,可以单独进行训练或微调,显著降低成本。
  • 参数规模与效率:Stage C 提供1B与3.6B参数两种模型,Stage B 提供700M与1.5B参数两种模型,强调了效率和质量的平衡。

性能比较

  • Stable Cascade 在几乎所有模型比较中,无论是在提示对齐还是美学质量方面,都表现最佳。
  • 尽管其最大模型参数比Stable Diffusion XL多出1.4亿,但仍然展现出更快的推理速度。

附加功能

  • 图像变体生成:通过使用CLIP提取给定图像的嵌入,然后返回给模型生成变体。
  • 图像到图像生成:通过向给定图像添加噪声作为生成的起点。

代码支持

  • 为了进一步降低实验的要求,Stable Cascade 发布了全部的训练、微调、ControlNet和LoRA代码。
  • 发布的ControlNets包括:修复/外扩、Canny边缘检测、2倍超分辨率等功能。

结论

Stable Cascade 通过其三阶段方法和模块化设计,展现了在文本到图像生成领域的新里程碑。这一模型不仅提供了高质量的输出,还通过其创新的架构大幅降低了训练和推理的硬件要求,使得更多的用户能够在消费级硬件上进行实验和创作。尽管目前仅限于非商业用途,但Stable Cascade 的发布为进一步的研究和开发提供了强大的工具和可能性。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat