新闻
发布日期:2026-05-28 12:18 点击次数:102
你是否设计过,仅凭几张顺手拍摄的像片,就能重建出一个完整、细节丰富且可解放交互的 3D 场景?
在传统顺次中,这险些是不能能完成的任务,珍惜的拍摄视角时常导致模子无法还原被遮拦的区域,生成的场景要么一鳞半瓜,要么细节缺乏。更令东谈主困扰的是,传统的重建算法无法解耦场景中的零丁物体,重建完了无法交互,严重截止了在具身智能、元天地和影视游戏等范围的应用远景。
近期,北京通用东谈主工智能盘考院齐集清华大学、北京大学的盘考团队建议了名为DP-Recon 的转换顺次。该顺次通过在组合式 3D 场景重建中,引入生成式扩散模子动作先验,即便独一寥寥数张图像输入,也能智能"脑补"出遮掩在视线除外的场景细节,分辨重建出场景中的每个物体和配景。
值得一提的是,该顺次还转换性地建议了一套可见性建模技能,通过动态和谐扩散先验和输入图片拘谨的耗损权重,精巧地搞定了生成实际与信得过场景不一致的难得。在应用层面,DP-Recon 不仅复旧从寥落图像中收复场景,还能完毕基于文本的场景剪辑,并导出带纹理的高质地模子,为具身智能、影视游戏制作、AR/VR 实际创作等范围,带来了全新的可能性。

盘考玄虚

△图 1. 重建完了、基于文本剪辑和影视殊效展示
3D 场景重建一直是计算机视觉和图形学范围的中枢挑战,其标的是从多视角图像中收复场景的完整几何和传神纹理。比年来,NeRF 和 3DGS 等神经隐式示意顺次在多视角饱和时进展出色,但在寥落视角下却百孔千疮。更遑急的是,这些顺次将扫数这个词场景动作一个举座重建,无法解耦零丁物体,这严重制约了卑劣应用的发展。
现存的组合式场景重建顺次同样濒临寥落视角带来的的严峻挑战。视角珍惜会导致大面积区域枯竭不雅测数据,模子在这些区域容易坍塌;同期,物体间的相互遮拦使得某些部分在扫数输入图像中皆不能见,最终导致重建完了出现荒唐或遗漏。
那么,奈何为这些"看不见"的区域补充合理信息,让重建模子既诚笃于输入图像,又能在空缺处有所依据?DP-Recon 给出了令东谈主奋斗的搞定决策,该顺次精巧地将生成式扩散模子动作先验引入组合式场景重建,通过 Score Distillation Sampling(SDS)技能,将扩散模子对物体想法的"认识"蒸馏到 3D 重建过程中。举例,当输入像片只拍到桌子的一面时,扩散模子不错基于对"桌子"这一想法的阐述,智能料到出桌子后面的可能花式和纹理。这种方式为重建提供了认果然信息补充,极大进步了在寥落视角和遮拦场景下的重建效果。
需要提神的是,奏凯将扩散先验硬套用到重建上并非易事。要是处理不当,生成模子可能会"过度遐想",产生与输入图像矛盾的实际,反而侵略基于信得过像片的重建过程。为此,DP-Recon 全心野心了一套基于可见性的均衡机制,精巧相助重建信号(来自输入图像的监督)和生成不异(来自扩散模子的先验),通过动态调整扩散先验的作用范围,确保模子在已有像片信息处保合手诚笃,在空缺区域合理阐述遐想力。
底下将深远解析 DP-Recon 的中枢技能细节。
要道技能

△图 2. DP-Recon 的算法框架
DP-Recon 的技能转换主要体当今以下三个要道方面:
1. 组合式场景重建:
与传统整步地重建不同,DP-Recon 继承组合式重建政策。具体来说,模子会哄骗多种模态的重建耗损(包括:RGB 图像、深度图、法向量图和实例分割图),为每个对象分辨建树隐式场(SDF),初步构建几何轮廓和外不雅表征,便于后续对每个物体加入基于文本的先验信息。
2. 几何和外不雅的分阶段优化:
DP-Recon 将重建过程分为了几何和外不雅两个阶段,分辨针对物体的花式和纹理进行优化。
在几何优化阶段,基于初步重建的基础,通过对法向量图引入 Stable Diffusion 的 SDS 耗损,进一步优化物体在欠缺不雅察区域的细节,权贵进步几何完整度。此阶段完了后,将输出每个物体和配景的 Mesh 结构。
在外不雅优化阶段,使用 Nvdiffrast 渲染生成的 Mesh,精巧会通输入图像的表情信息和扩散先验,对物体名义纹理进行优化。为便于后续渲染和剪辑,DP-Recon 在此阶段还会为每个对象生成缜密的 UV 贴图。
经过以上两个阶段的处理,最终,场景中每个对象的高质地网格模子过头纹理贴图,均具有精确几何和传神外不雅。
3. 可见性不异的 SDS 权重机制:
针对扩散先验可能带来的不一致问题,DP-Recon 建议了转换的可见性不异搞定决策。该顺次在计算 SDS 耗损机引入可见性权重,字据每个像素在输入视角中的可见进度,动态和谐扩散模子的不异强度。
具体而言,DP-Recon 在重建过程中构建了一个可见性网格,通过输入视角体渲染过程中积存的透射率,来优化这个网格。当需要计算参与 SDS 视角的可见性图时,奏凯查询该网格即可。关于输入像片中高度可见的区域,系统会自动裁汰 SDS 耗损权重,幸免扩散模子"喧宾夺主";而关于未被拍摄到或被遮拦的区域,则赋予更高的 SDS 权重,饱读舞收罗借助扩散先验补全细节。这种缜密的可见性不异机制,圆善均衡了重建的信得过性与完整性。
实验完了
在 Replica 和 ScanNet++ 等泰斗数据集上的系统性评估标明,DP-Recon 在寥落视角下的举座场景重建和剖释式物体重建两方面皆完毕了权贵打破。

△表 1. 整场景重建定量完了对比
1. 举座场景重建:
量化完了(见表 1)昭彰露出,DP-Recon 顺次在重建标的和渲染标的上与扫数基线模子比较,均展现出彰着上风。

△图 3. 场景重建完了对比
如图 3 所示,通过将生成式先验融入重建经过,DP-Recon 在拍摄不及的区域,完毕了更精确的几何重建和表情还原,以及更平滑的配景重建和更少的伪影飘浮物。如图 4 所示,在不异条目下,DP-Recon 的渲染完了质地彰着更高,而基线顺次则出现彰着伪影。

△图 4. 新视角合成完了对比
2. 剖释式物体重建:
如表 2 和图 3 所示,生成式先验的引入极大改善了遮拦区域的重建效果,被遮拦物体的结构和配景皆能愈加精确地还原,DP-Recon 权贵减少遮拦区域的伪影飘浮物。在遮拦严重的复杂大场景测试中(见图 1),DP-Recon 仅用 10 个视角就高出了基线顺次使用 100 个视角的重建效果,这一打破性效果充分证明了该顺次在信得过场景中的实用价值。

△表 2. 物体和配景重建完了对比应用价值
1. 智能家居重建:
DP-Recon 对室内场景展现出了超卓的鲁棒性。实验标明,仅需从 YouTube 看房视频中提真金不怕火 15 张图像,配合 Colmap 标注相机位姿和 SAM2 物体分割,就能重建出高质地的带纹理场景模子,如图 5 所示。

△图 5. YouTube 看房视频重建完了
2. 赋能 3D AIGC:
借助 DP-Recon 的生成式先验,用户不错猖厥完毕基于文本的场景剪辑,如图 6 所示。就像为 3D 寰球接入了 AI 遐想力,用一句"将花瓶造成泰迪熊"或是"换成天际立场",就能完毕传统顺次需要数日才能完成的修改。这种无缝会通重建与创作的才智,将大幅进步 AIGC 坐蓐效力。

△图 6. 基于文本的场景几何和外不雅剪辑
3. 影视游戏工业化:
DP-Recon 输出的每个对象皆是带有缜密 UV 贴图的零丁网格模子,如图 7 所示,这为影视殊效(VFX)和游戏开荒带来了极大便利。创作家不错猖厥将模子导入 Blender 等 3D 软件,进行光照、动画和殊效制作,或将场景奏凯接入游戏引擎开荒交互实际。

△图 7. 影视殊效展示团队先容
盘考团队由来自北京通用东谈主工智能盘考院(BIGAI)、清华大学和北京大学的跨学科盘考者构成,勤奋于于通用东谈主工智能范围的前沿盘考。团队成员在三维场景认识、重建和生成等方面,领有丰富的盘考素养。一动作清华大学博士生倪俊锋,其它作家为清华大学博士生刘宇、北京大学博士生陆睿杰、清华大学本科生周子睿;通信作家为北京通用东谈主工智能盘考院盘考员陈以新、北京通用东谈主工智能盘考院盘考员黄想远。
论文流畅: https://arxiv.org/abs/2503.14830
名堂主页: https://dp-recon.github.io/
代码仓库: https://github.com/DP-Recon/DP-Recon
一键三连「点赞」「转发」「注意心」
接待在接头区留住你的目标!
— 完 —
学术投稿请于使命日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿实际
附上论文 / 名堂主页流畅,以及干系方式哦
咱们会(尽量)实时恢复你

� � 点亮星标 � �
科技前沿进展逐日见欧洲杯体育
Powered by 开云(中国)kaiyun网页版登录入口 @2013-2022 RSS地图 HTML地图
Copyright Powered by站群系统 © 2013-2024