文本生成图片

Text to Image

文本到图像模型(Text to Image)是一种机器学习模型,它将自然语言描述作为输入,并生成与该描述匹配的图像。由于深度神经网络的进步,此类模型于2010年中期开始开发。2022年,将最先进的文本输出到图像模型,例如OpenAI的DALL-E 2、Google Brain的Imagen和StabilityAI的Stable Diffusion,开始接近真实照片和人画艺术的质量。

文本到图像模型通常结合了语言模型(将输入文本转换为潜在表示)和生成图像模型(根据该表示生成图像)。最有效的模型通常是基于从网络上获取的大量图像和文本数据进行训练的。

——来自维基百科

文本生成图片