SH

Shap-E

Shap-E

发布时间: 2023-05-03469
模型参数
未披露
上下文长度
2K
中文支持
不支持
推理能力

模型基本信息

推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2023-05-03
模型文件大小
暂无数据
推理模式
暂无模式数据

开源和体验地址

代码开源状态
暂无数据
预训练权重开源
暂无数据
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。

评测得分

当前尚无可展示的评测数据。

发布机构

模型解读

Shap·E,这个条件生成模型被设计用于生成三维资产。与传统模型只产生单一输出表示不同,Shap·E生成隐式函数的参数。这些函数可以呈现为纹理网格或神经辐射场(NeRF),从而实现多功能和逼真的三维资产生成。



在训练Shap·E时,研究人员首先训练了一个编码器。编码器将三维资产作为输入,并将它们映射到隐式函数的参数中。这种映射使模型能够彻底学习三维资产的基本表示。接下来,使用编码器的输出训练了一个条件扩散模型。条件扩散模型学习给定输入数据的隐式函数参数的条件分布,从而通过从学习的分布中进行采样生成多样化和复杂的三维资产。扩散模型是使用大型成对三维资产及其对应的文本描述数据集进行训练的。


Shap·E涉及三维表示的隐式神经表示(INRs)。隐式神经表示通过将三维坐标映射到位置特定信息(如密度和颜色)来编码三维资产,以表示三维资产。它们通过捕捉三维资产的详细几何属性提供了一个多功能和灵活的框架。团队讨论过的两种类型的INRs是:


  • 神经辐射场(Neural Radiance Field,NeRF)——NeRF通过将坐标和视角方向映射到密度和RGB颜色来表示3D场景。NeRF可以从任意视角进行渲染,从而实现场景的逼真和高保真度渲染,并且可以训练以匹配真实渲染结果。
  • DMTet及其扩展GET3D——这些内隐神经表示(INRs)已被用来表示带纹理的3D网格,通过将坐标映射到颜色、有符号距离和顶点偏移来实现。通过利用这些函数,可以以可微分的方式构建3D三角形网格。


研究团队分享了Shap·E的一些结果示例,包括文本提示的3D结果,例如食物碗、企鹅、体素化的狗、篝火、长得像牛油果的椅子等等。使用Shap·E训练的模型展示了出色的性能,可以在几秒钟内生成高质量的输出。为了评估,Shap·E与另一个生成模型Point·E进行了比较,后者生成点云的显式表示。尽管建模了更高维度和多重表示输出空间,但Shap·E在比较中显示出更快的收敛速度,并实现了可比较或更好的样本质量。


总之,Shap·E是一个有效且高效的3D资产生成模型。它似乎很有前途,并是生成式人工智能贡献的重要补充。