全球最大的39亿参数的text-to-image预训练模型发布

最新免费的文本转图片模型和代码来了。CVPR2022的一篇论文带来了一个39亿参数的自回归图像模型公开了他们的代码和论文。这是韩国Pohang科技大学提出的。这个模型可以根据一句话生成相应的图片，下图分别是根据短语或者一句话生成的的结果，比如梵高的画作，在雪山前的汉堡等非常逼真。该模型最大的亮点是抽样速度快7倍的情况下效果也更好。他们也放出来一个3000万图像预训练结果的模型，39亿参数，也是目前最大的text-to- image模型。大家可以去GitHub和arxiv围观。

论文名：Autoregressive Image Generation using Residual Quantization arXiv地址：https://arxiv.org/abs/2203.01941 GitHub地址：https://github.com/kakaobrain/rq-vae-transformer

全球最大的39亿参数的text-to-image预训练模型发布

DataLearner 官方微信

热门博客