苹果开源新模型！一秒钟让照片变3D世界

发布时间：2025-12-21栏目名称：AI视频作者：daniel

智东西12月19日消息，12月11日，苹果发表论文介绍了3D生成模型SHARP，宣称在标准GPU上，该模型能够以不到1秒的时间将单张图像重建为逼真的3D场景。目前，该模型已开源。

用户仅需输入一张普通照片，该模型即可通过神经网络一次性预测出整个场景的3D高斯表示参数，整个生成过程在标准GPU上完成仅需不足一秒，随后还能实时渲染出高分辨率、照片级真实感的相邻视角图像。此外，SHARP生成的3D场景具有绝对尺度的度量特性，能够支持精确的相机位移操作。

定量评估显示，SHARP在不同数据集上展现出强大的零样本泛化能力，在多个数据集上实现了新的技术突破，与现有最佳模型相比，LPIPS指标（感知相似性）降低了25-34%，DISTS指标（结构相似性）降低了21-43%，还将合成时间缩短了三个数量级，并支持以每秒100帧高分辨率渲染邻近视图的3D表征。

不少开发者对该模型进行了体验。其中，有网友将其置于Vision Pro内使用，仅需单张图片就实现了身临其境的效果，生成画面的精细度也比较高。

还有网友上传了一张油画，该模型最终生成了一个位置关系准确、画面完整的3D场景。

其他网友评价称，该模型无法生成场景中不可见的部分，不过它的最大优势在于生成速度，“MacBook Pro 只需几秒钟（就能完成生成）……”。

该模型的详细信息已发布在arXiv上，题为《SHARP：不到一秒的单图像视角合成（Sharp Monocular View Synthesis in Less Than a Second）》。

论文地址：https://arxiv.org/abs/2512.10685

开源地址：

GitHub：https://github.com/apple/ml-sharp

Hugging Face：https://huggingface.co/apple/Sharp

一、保真度提高约20%-40%，合成时间缩短三个数量级

研究人员用多个数据集对SHARP模型进行评估，主要关注模型的两个指标：LPIPS和DISTS，以考察模型的合成图像与真实图像之间的结构相似性，符合人主观感受的程度。这两个数据越小，性能越优。

在基线模型上，研究人员选取了一些现有的前沿模型，分别为：基于3D高斯分布的Flash 3D模型；使用多平面图像的TMPI模型；基于图像回归的LVSM模型；采用扩散模型的稳定虚拟相机（SVC）、ViewCrafter和Gen3C。

定量评估显示，SHARP在所有数据集中的表现均为最佳，打败所有模型。相较现有最佳模型，SHARP的LPIPS指标降低了25-34%，DISTS指标降低了21-43%。

研究人员对该模型的单图像合成任务性能进行了评估，结果显示，在单个GPU上，SHARP在保持高图像保真度的同时，合成时间也位列第一梯队。相较于同等质量的模型，SHARP模型的合成时间缩短了三个数量级，这体现了其在效率和效果上的优势。

欢迎分享转载→ 苹果开源新模型！一秒钟让照片变3D世界