全球最大的39亿参数的text-to-image预训练模型发布

标签:#论文# 时间:2022/03/26 16:26:15 作者:小木

最新免费的文本转图片模型和代码来了。CVPR2022的一篇论文带来了一个39亿参数的自回归图像模型公开了他们的代码和论文。这是韩国Pohang科技大学提出的。这个模型可以根据一句话生成相应的图片,下图分别是根据短语或者一句话生成的的结果,比如梵高的画作,在雪山前的汉堡等非常逼真。该模型最大的亮点是抽样速度快7倍的情况下效果也更好。他们也放出来一个3000万图像预训练结果的模型,39亿参数,也是目前最大的text-to- image模型。大家可以去GitHub和arxiv围观。

论文名:Autoregressive Image Generation using Residual Quantization
arXiv地址:https://arxiv.org/abs/2203.01941
GitHub地址:https://github.com/kakaobrain/rq-vae-transformer

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送