专业原创句子网站!

当前位置:ai人工智能学习网站>AI视频 > 本文内容

苹果开源新模型!一秒钟让照片变3D世界

发布时间:2025-12-21栏目名称:AI视频作者:daniel

智东西12月19日消息,12月11日,苹果发表论文介绍了3D生成模型SHARP,宣称在标准GPU上,该模型能够以不到1秒的时间将单张图像重建为逼真的3D场景。目前,该模型已开源。

用户仅需输入一张普通照片,该模型即可通过神经网络一次性预测出整个场景的3D高斯表示参数,整个生成过程在标准GPU上完成仅需不足一秒,随后还能实时渲染出高分辨率、照片级真实感的相邻视角图像。此外,SHARP生成的3D场景具有绝对尺度的度量特性,能够支持精确的相机位移操作。

定量评估显示,SHARP在不同数据集上展现出强大的零样本泛化能力,在多个数据集上实现了新的技术突破,与现有最佳模型相比,LPIPS指标(感知相似性)降低了25-34%,DISTS指标(结构相似性)降低了21-43%,还将合成时间缩短了三个数量级,并支持以每秒100帧高分辨率渲染邻近视图的3D表征。

不少开发者对该模型进行了体验。其中,有网友将其置于Vision Pro内使用,仅需单张图片就实现了身临其境的效果,生成画面的精细度也比较高。

 

还有网友上传了一张油画,该模型最终生成了一个位置关系准确、画面完整的3D场景。

 

其他网友评价称,该模型无法生成场景中不可见的部分,不过它的最大优势在于生成速度,“MacBook Pro 只需几秒钟(就能完成生成)……”。

 

该模型的详细信息已发布在arXiv上,题为《SHARP:不到一秒的单图像视角合成(Sharp Monocular View Synthesis in Less Than a Second)》。

 

论文地址:https://arxiv.org/abs/2512.10685

开源地址:

GitHub:https://github.com/apple/ml-sharp

Hugging Face:https://huggingface.co/apple/Sharp

一、保真度提高约20%-40%,合成时间缩短三个数量级

研究人员用多个数据集对SHARP模型进行评估,主要关注模型的两个指标:LPIPS和DISTS,以考察模型的合成图像与真实图像之间的结构相似性,符合人主观感受的程度。这两个数据越小,性能越优。

在基线模型上,研究人员选取了一些现有的前沿模型,分别为:基于3D高斯分布的Flash 3D模型;使用多平面图像的TMPI模型;基于图像回归的LVSM模型;采用扩散模型的稳定虚拟相机(SVC)、ViewCrafter和Gen3C。

定量评估显示,SHARP在所有数据集中的表现均为最佳,打败所有模型。相较现有最佳模型,SHARP的LPIPS指标降低了25-34%,DISTS指标降低了21-43%。

 

研究人员对该模型的单图像合成任务性能进行了评估,结果显示,在单个GPU上,SHARP在保持高图像保真度的同时,合成时间也位列第一梯队。相较于同等质量的模型,SHARP模型的合成时间缩短了三个数量级,这体现了其在效率和效果上的优势。

欢迎分享转载→ 苹果开源新模型!一秒钟让照片变3D世界

© 2025-2026 - ai课题网-版权所有

课题网网站主要提供经典ai学习资料,学科教案资源,内容部分来源网络整理和网友提供,如有侵权,请联系删除。