模型详细情况和参数
最近在大数据上学习的大规模生成模型能够合成令人难以置信的图像,但却存在可控性有限的问题。这项工作提供了一种新的生成范式,允许灵活控制输出图像,如空间布局和调色板,同时保持合成质量和模型的创造性。以合成性为核心思想,我们首先将图像分解成有代表性的因素,然后以所有这些因素为条件训练一个扩散模型,对输入进行重新组合。在推理阶段,丰富的中间表征作为可组合的元素发挥作用,导致一个巨大的设计空间(即与分解因素的数量成指数比例),用于可定制的内容创作。值得注意的是,我们的方法,我们称之为Composer,支持各种层次的条件,如文本描述作为全局信息,深度图和草图作为局部指导,颜色直方图作为低层次细节,等等。除了提高可控性,我们确认Composer可以作为一个通用的框架,并促进广泛的经典生成任务,而无需重新训练。代码和模型将被提供。
Composer,是组合式生成模型的实现。组合式生成模型,是指能够无缝地重新组合视觉组件以产生新图像的生成模型(图1)。具体来说,我们将Composer实现为一个具有UNet骨干的多条件扩散模型(Nichol等人,2021)。在Composer的每次训练迭代中,有两个阶段:在分解阶段,我们使用计算机视觉算法或预训练的模型将一批图像分解成单独的表征;而在组成阶段,我们优化Composer,使其能够从其表征子集中重建这些图像。尽管只用一个重建目标进行训练,但Composer能够从未曾见过的表征组合中解码新的图像,这些表征可能来自不同的来源,并且可能彼此不兼容。
Composer是一个大型的(50亿个参数)可控扩散模型,在数十亿个(文本、图像)对上训练。它可以通过组合以指数方式扩展控制空间,导致产生和操纵图像的大量方法,即使有限的手段得到无限的利用。
项目目前还没有开源更多预训练模型的细节,不过其官方GitHub中表示会进一步开发训练和推理代码以及未来可能会开放一个轻量级的模型。
项目更多案例: