NVIDIA 开源 Lyra 2.0,单张图片生成可行走 3D 世界

AI资讯 2小时前 硕雀
3 0

NVIDIA Lyra 2.0:从单张图片生成可行走的3D世界

一、什么是 Lyra 2.0

NVIDIA Lyra 2.0(全称:Lyra 2.0: Explorable Generative 3D Worlds)是一项突破性的AI技术,能够从单张图像生成长视距、可交互探索的3D世界。这项技术由NVIDIA Research团队开发,主要作者包括Tianchang Shen、Sherwin Bahmani、Sanja Fidler、Huan Ling、Jun Gao和Xuanchi Ren等。

 

二、核心功能与特性

1. 单图像生成3D世界

  • 输入一张2D照片即可生成可导航的3D环境
  • 支持用户通过交互式界面定义相机轨迹进行场景探索
  • 可迭代替代生成视频片段,逐步扩展3D场景范围

2. 关键技术突破

  • 解决空间遗忘问题:通过维护每帧的3D几何信息,避免长视距生成中的空间一致性丢失
  • 抑制时间漂移:利用自增强训练策略和自适应压缩历史帧,保持场景的时间连贯性
  • 高精度3D重建:生成的3D场景可导出为3D高斯(3DGS)或表面网格(Mesh)

3. 支持多种输入方式

  • 单张图片
  • 多角度照片
  • 短视频序列
  • 文本描述提示
  • 粗略的3D布局草图

三、技术实现细节

模型架构

组件 说明
基础模型 基于Wan 2.1-14B DiTDiffusion Transformer)视频扩散模型
训练分辨率 832×480像素
VAE编码 空间下采样8倍,时间下采样4倍,潜在通道维度C=16
相机条件注入 双重模块:深度扭曲条件 + Plücker射线注入

核心创新机制

空间记忆(Spatial Memory)

自增强训练(Self-Augmentation)

  • 增强概率设为0.7
  • 无需多视角训练数据,通过自蒸馏提取视频扩散模型的隐式3D知识

优化参数

推理性能

  • 单次自回归推理(80帧):单块GB200 GPU约194秒(含CFG
  • 使用DMD加速后可降至约15秒
  • 空间记忆检索耗时<1秒/步

四、开源情况

项目 许可证 链接
代码 Apache 2.0 https://github.com/nv-tlabs/lyra
模型 NVIDIA开放模型许可 同代码仓库

系统要求

五、应用场景

1. 机器人仿真

Lyra 2.0生成的3D场景可转换为表面网格,并集成到NVIDIA Isaac Sim模拟器中,用于:

  • 机器人导航训练
  • 环境交互模拟
  • 自主系统测试

2. 游戏开发

  • 快速生成游戏关卡环境
  • 创建可探索的3D场景
  • 支持NPC行为模拟

3. 虚拟与现实融合

  • 基于真实照片创建数字孪生
  • 文化遗产的3D保存
  • 建筑可视化与沉浸式预览

4. 内容创作

  • 短视频生成3D资产
  • 文本提示驱动的场景创建
  • 交互式故事体验构建

六、性能对比

与现有方法相比,Lyra 2.0在多个指标上表现出色:

评估指标 Lyra 2.0 基线方法 提升
相机可控性 63.87 49.86 +28.1%
风格一致性 85.07 80.61 +5.5%
重投影误差 0.079 - 显著降低

消融实验表明,移除全局点云或显式相关性融合会导致显著的性能下降,验证了这些模块对长视距生成的必要性。

七、技术流程

输入图像 → 相机轨迹定义 → 视频片段迭代生成 → 3D点云提升 → 
空间记忆检索 → 3DGS重建/网格提取 → 导出仿真环境

八、总结

NVIDIA Lyra 2.0代表了从2D图像到可交互3D世界的重大技术突破。通过结合视频扩散模型与显式3D高斯表示,它解决了长视距生成中的空间遗忘和时间漂移问题,能够在单张图像的基础上构建高质量、可探索的3D场景。

该技术的开源发布为学术界和工业界提供了强大的工具,推动了机器人仿真、游戏开发、虚拟体验等多个领域的发展。随着3D内容生成技术的进步,Lyra 2.0有望成为连接2D视觉与3D世界理解的重要桥梁。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!