DALL·E

DALL·E 预训练模型详情

模型全称

DALL·E

发布组织

模型大小

未知

类型

计算机视觉

发布论文

Zero-Shot Text-to-Image Generation

模型简介

文本到图像的生成传统上侧重于寻找更好的建模假设,以便在固定的数据集上进行训练。这些假设可能涉及复杂的架构、辅助损失或侧面信息,如训练期间提供的对象部分标签或分割掩码。我们为这项任务描述了一种简单的方法,它基于一个转化器,将文本和图像标记作为一个单一的数据流进行自回归建模。在有足够的数据和规模的情况下,我们的方法与以前的特定领域的模型相比,在以零点方式评估时具有竞争力。