数据学习
登录
注册
原创博客
期刊会议
学术世界
期刊出版社
领域期刊
SCI/SCIE/SSCI/EI简介
期刊列表
会议列表
所有期刊分区
学术期刊信息检索
JCR期刊分区查询
CiteScore期刊分区查询
中科院期刊分区查询
领域期刊分区
管理 - UTD24期刊列表
管理 - AJG(ABS)期刊星级查询
管理 - FMS推荐期刊列表
计算机 - CCF推荐期刊会议列表
高校期刊分区
南大核心(CSSCI)
合工大小核心
合工大大核心
AI资源仓库
AI领域与任务
AI研究机构
AI学术期刊
AI论文快讯
AI数据集
AI开源工具
AI模型
AI模型概览
预训练模型
数据推荐
网址导航
我的网址导航
程序员必备网站
OpenAI开源最新的3D物体生成预训练模型——Point-E
标签:
#3D生成#
#OpenAI#
#开源模型#
时间:2022/12/20 21:13:23
作者:小木
三维物体的生成(3D)其实是AR/VR领域一个非常重要的技术。但是,受限于算力和现有模型的限制,三维物体的生成相比较图像生成来说效率太低。目前,最好的图像生成模型在几秒钟就可以根据文字生成图像结果,但是3D物体的生成通常需要多个GPU小时才可以生成一个对象。为此,OpenAI在今天开源了一个速度极快的3D物体生成模型——Point-E,需要注意的是,这是今年来OpenAI罕见的源代码和预训练结果都开源的一个模型。 下图是一个实例:

Point-E只需要1-2分钟即可生成一个3D对象。‘ Point-E模型首先使用文本到图像的扩散模型生成一个单一的合成视图,然后使用第二个扩散模型生成一个三维点云,该模型以生成的图像为条件。虽然该方法在采样质量方面仍未达到最先进的水平,但它的采样速度要快一到两个数量级,为一些使用情况提供了实际的权衡。 下图是该模型的一个high-level的pipeline示意图:

当前,该模型的版本包括如下几个: | 预训练模型参数 | 说明 | 预训练模型下载地址 | | ------------ | ------------ | | | 4000万(uncond) | 一个没有任何条件信息的小模型 | https://openaipublic.azureedge.net/main/point-e/base_40m_uncond.pt | | 4000万(text vec.) | 一个小的模型,它只对文本标题,而不是渲染的图像进行限制。文本标题是用CLIP嵌入的,而CLIP的嵌入是作为一个单一的额外的上下文标记来附加的。这个模型依赖于我们的3D数据集中的文本标题,并没有利用微调的GLIDE模型。 | https://openaipublic.azureedge.net/main/point-e/base_40m_textvec.pt | | 4000万(image vec.) | 一个小模型,它以渲染图像的CLIP图像嵌入为条件,与Sanghi等人(2021)类似。这与其他图像条件模型的不同之处在于,图像被编码为上下文的单一标记,而不是作为对应于CLIP潜意识网格的潜意识序列 | https://openaipublic.azureedge.net/main/point-e/base_40m_imagevec.pt | | 4000万 | 一个小型的模型,通过CLIP潜意识的网格进行全图像调节 | https://openaipublic.azureedge.net/main/point-e/base_40m.pt | | 3亿参数 | 一个具有完整图像调节功能的中等模型通过CLIP潜规则的网格。| https://openaipublic.azureedge.net/main/point-e/base_300m.pt | | 10亿参数 | 一个大型的模型,通过CLIP潜规则的网格进行全图像调节。 | https://openaipublic.azureedge.net/main/point-e/base_1b.pt | 需要注意的是,Point-E的效果比不上Google的DreamFusion,但是速度比谷歌家的模型快600倍! 明年,3D物体生成模型应该会有大爆发,StabilityAI家的3D Stable Diffusion和Midjourney 3D版本估计都会发布。值得期待! Point-E模型卡信息:https://www.datalearner.com/ai-resources/pretrained-models/point-e Point-E开源代码:https://github.com/openai/point-e
相关博客
最热博客