Shap-E - Shap-E

模型详细情况和参数

Shap-E

模型全称
Shap-E
模型简称
Shap-E
模型类型
基础大模型
发布日期
2023-05-03
预训练文件大小
未知
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
0.0
模型代码开源协议
预训练结果开源商用情况
-
模型HuggingFace链接
暂无
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型
发布机构

Shap-E 简介

Shap·E,这个条件生成模型被设计用于生成三维资产。与传统模型只产生单一输出表示不同,Shap·E生成隐式函数的参数。这些函数可以呈现为纹理网格或神经辐射场(NeRF),从而实现多功能和逼真的三维资产生成。



在训练Shap·E时,研究人员首先训练了一个编码器。编码器将三维资产作为输入,并将它们映射到隐式函数的参数中。这种映射使模型能够彻底学习三维资产的基本表示。接下来,使用编码器的输出训练了一个条件扩散模型。条件扩散模型学习给定输入数据的隐式函数参数的条件分布,从而通过从学习的分布中进行采样生成多样化和复杂的三维资产。扩散模型是使用大型成对三维资产及其对应的文本描述数据集进行训练的。


Shap·E涉及三维表示的隐式神经表示(INRs)。隐式神经表示通过将三维坐标映射到位置特定信息(如密度和颜色)来编码三维资产,以表示三维资产。它们通过捕捉三维资产的详细几何属性提供了一个多功能和灵活的框架。团队讨论过的两种类型的INRs是:


  • 神经辐射场(Neural Radiance Field,NeRF)——NeRF通过将坐标和视角方向映射到密度和RGB颜色来表示3D场景。NeRF可以从任意视角进行渲染,从而实现场景的逼真和高保真度渲染,并且可以训练以匹配真实渲染结果。
  • DMTet及其扩展GET3D——这些内隐神经表示(INRs)已被用来表示带纹理的3D网格,通过将坐标映射到颜色、有符号距离和顶点偏移来实现。通过利用这些函数,可以以可微分的方式构建3D三角形网格。


研究团队分享了Shap·E的一些结果示例,包括文本提示的3D结果,例如食物碗、企鹅、体素化的狗、篝火、长得像牛油果的椅子等等。使用Shap·E训练的模型展示了出色的性能,可以在几秒钟内生成高质量的输出。为了评估,Shap·E与另一个生成模型Point·E进行了比较,后者生成点云的显式表示。尽管建模了更高维度和多重表示输出空间,但Shap·E在比较中显示出更快的收敛速度,并实现了可比较或更好的样本质量。


总之,Shap·E是一个有效且高效的3D资产生成模型。它似乎很有前途,并是生成式人工智能贡献的重要补充。

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

Shap-E所属的领域
计算机视觉

计算机视觉

Computer Vision

35个资源

多模态学习

多模态学习

Multimodal Learning

35个资源

Shap-E相关的任务
图像生成3D

图像生成3D

Image-to-3D

35个资源

文本生成3D

文本生成3D

Text to 3D

35个资源