NVIDIA 开源 Lyra 2.0，单张图片生成可行走 3D 世界

AI资讯 2小时前硕雀

3 0 0

NVIDIA Lyra 2.0：从单张图片生成可行走的3D世界

一、什么是 Lyra 2.0

NVIDIA Lyra 2.0（全称：Lyra 2.0: Explorable Generative 3D Worlds）是一项突破性的AI技术，能够从单张图像生成长视距、可交互探索的3D世界。这项技术由NVIDIA Research团队开发，主要作者包括Tianchang Shen、Sherwin Bahmani、Sanja Fidler、Huan Ling、Jun Gao和Xuanchi Ren等。

二、核心功能与特性

1. 单图像生成3D世界

输入一张2D照片即可生成可导航的3D环境
支持用户通过交互式界面定义相机轨迹进行场景探索
可迭代替代生成视频片段，逐步扩展3D场景范围

2. 关键技术突破

解决空间遗忘问题：通过维护每帧的3D几何信息，避免长视距生成中的空间一致性丢失
抑制时间漂移：利用自增强训练策略和自适应压缩历史帧，保持场景的时间连贯性
高精度3D重建：生成的3D场景可导出为3D高斯（3DGS）或表面网格（Mesh）

3. 支持多种输入方式

单张图片
多角度照片
短视频序列
文本描述提示
粗略的3D布局草图

三、技术实现细节

模型架构

组件	说明
基础模型	基于Wan 2.1-14B DiT（Diffusion Transformer）视频扩散模型
训练分辨率	832×480像素
VAE编码	空间下采样8倍，时间下采样4倍，潜在通道维度C=16
相机条件注入	双重模块：深度扭曲条件 + Plücker射线注入

核心创新机制

空间记忆（Spatial Memory）

每步自回归推理检索5个空间记忆帧
通过点云缓存建立密集3D对应关系
规范坐标被变形并注入到DiT注意力机制中

自增强训练（Self-Augmentation）

增强概率设为0.7
无需多视角训练数据，通过自蒸馏提取视频扩散模型的隐式3D知识

优化参数

优化器：AdamW，学习率3×10⁻⁵，权重衰减0.1
Batch Size：64（跨64块NVIDIA GB200 GPU）
训练迭代：7,000次
精度：bf16混合精度训练

推理性能

单次自回归推理（80帧）：单块GB200 GPU约194秒（含CFG）
使用DMD加速后可降至约15秒
空间记忆检索耗时<1秒/步

四、开源情况

项目	许可证	链接
代码	Apache 2.0	https://github.com/nv-tlabs/lyra
模型	NVIDIA开放模型许可	同代码仓库

系统要求

GPU：CUDA兼容，推荐NVIDIA GB200
显存：至少48GB
依赖：PyTorch、3D Gaussian Splatting、FLUX等

五、应用场景

1. 机器人仿真

Lyra 2.0生成的3D场景可转换为表面网格，并集成到NVIDIA Isaac Sim模拟器中，用于：

机器人导航训练
环境交互模拟
自主系统测试

2. 游戏开发

快速生成游戏关卡环境
创建可探索的3D场景
支持NPC行为模拟

3. 虚拟与现实融合

基于真实照片创建数字孪生
文化遗产的3D保存
建筑可视化与沉浸式预览

4. 内容创作

短视频生成3D资产
文本提示驱动的场景创建
交互式故事体验构建

六、性能对比

与现有方法相比，Lyra 2.0在多个指标上表现出色：

评估指标	Lyra 2.0	基线方法	提升
相机可控性	63.87	49.86	+28.1%
风格一致性	85.07	80.61	+5.5%
重投影误差	0.079	-	显著降低

消融实验表明，移除全局点云或显式相关性融合会导致显著的性能下降，验证了这些模块对长视距生成的必要性。

七、技术流程

输入图像 → 相机轨迹定义 → 视频片段迭代生成 → 3D点云提升 → 
空间记忆检索 → 3DGS重建/网格提取 → 导出仿真环境

八、总结

NVIDIA Lyra 2.0代表了从2D图像到可交互3D世界的重大技术突破。通过结合视频扩散模型与显式3D高斯表示，它解决了长视距生成中的空间遗忘和时间漂移问题，能够在单张图像的基础上构建高质量、可探索的3D场景。

该技术的开源发布为学术界和工业界提供了强大的工具，推动了机器人仿真、游戏开发、虚拟体验等多个领域的发展。随着3D内容生成技术的进步，Lyra 2.0有望成为连接2D视觉与3D世界理解的重要桥梁。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

NVIDIA 开源 Lyra 2.0，单张图片生成可行走 3D 世界

NVIDIA Lyra 2.0：从单张图片生成可行走的3D世界

一、什么是 Lyra 2.0

二、核心功能与特性

1. 单图像生成3D世界

2. 关键技术突破

3. 支持多种输入方式

三、技术实现细节

模型架构

核心创新机制

空间记忆（Spatial Memory）

自增强训练（Self-Augmentation）

优化参数

推理性能

四、开源情况

系统要求

五、应用场景

1. 机器人仿真

2. 游戏开发

3. 虚拟与现实融合

4. 内容创作

六、性能对比

七、技术流程

八、总结

Moonshot AI携手清华大学发布PrfaaS架构：破解大模型算力瓶颈

Anthropic 已于 2026年4月17日正式发布了 Claude Opus 4.7

NVIDIA 开源 Lyra 2.0，单张图片生成可行走 3D 世界

NVIDIA Lyra 2.0：从单张图片生成可行走的3D世界

一、什么是 Lyra 2.0

二、核心功能与特性

1. 单图像生成3D世界

2. 关键技术突破

3. 支持多种输入方式

三、技术实现细节

模型架构

核心创新机制

空间记忆（Spatial Memory）

自增强训练（Self-Augmentation）

优化参数

推理性能

四、开源情况

系统要求

五、应用场景

1. 机器人仿真

2. 游戏开发

3. 虚拟与现实融合

4. 内容创作

六、性能对比

七、技术流程

八、总结

Moonshot AI携手清华大学发布PrfaaS架构：破解大模型算力瓶颈

Anthropic 已于 2026年4月17日 正式发布了 Claude Opus 4.7

Anthropic 已于 2026年4月17日正式发布了 Claude Opus 4.7