智源 Emu 3.5 大模型概览
1. 背景与意义
2025 年 10 月 30 日,北京智源人工智能研究院正式发布了 悟界·Emu 3.5,定位为“多模态世界大模型”。它在前代 Emu 3 的基础上,进一步突破了多模态序列的统一建模方式,实现了从“感知‑理解”向“感知‑理解‑行动”的跨场景具身智能跃迁。
2. 模型概述
| 项目 | 内容 | 
|---|---|
| 模型名称 | 悟界·Emu 3.5(Emu 3.5) | 
| 参数规模 | 约 34 B(相较 Emu 3 的 8 B 大幅提升) | 
| 训练目标 | Next‑State Prediction(NSP)——自回归方式预测多模态序列的下一状态,而非仅预测下一个 token,实现了对文本、图像、视频等多模态信息的统一建模 | 
| 核心创新 | - 离散扩散自适应(DiDA) 技术,使图像生成推理速度提升近 20 倍,性能几乎无损 - 融合 预训练‑微调‑强化学习 三阶段训练流程,提升生成质量与任务适配能力 | 
3. 训练规模与数据
- 多模态 Token 数:超过 10 万亿(10 trillion) token,涵盖文本、图像、视频等多模态信息。
- 视频数据:训练视频时长从 15 年跃升至 790 年,实现了对时空动态的深层学习。
- 数据来源:主要来源于公开的互联网视频、图文对、跨模态文档等,形成统一的图文交错序列格式进行自回归学习。
4. 能力与应用场景
| 能力 | 具体表现 | 
|---|---|
| 多模态生成 | 支持 文图生成、图片编辑、时空变换,能够在同一输出中同时呈现文字、图像、视频内容。 | 
| 具身操作 | 具备 跨场景动作规划与复杂交互 能力,可生成行动指南、执行多步骤任务的步骤推理,体现出可泛化的世界建模能力。 | 
| 沉浸式叙事 | 能围绕任意主题生成 沉浸式故事,实现多模态叙事与视觉引导,适用于数字内容创作、教育培训等。 | 
| 高效推理 | 通过 DiDA 技术,推理速度提升约 20 倍,在保持生成质量的前提下实现接近顶级闭源扩散模型的效率。 | 
| 跨模态理解 | 在视觉理解、文本理解以及二者的交叉任务上表现出色,可用于 图像问答、视频检索、跨模态检索 等实际业务场景。 | 
5. 开源与生态建设
智源在发布会中承诺 Emu 3.5 将开源,并提供相应的模型权重与推理代码,旨在推动多模态大模型的科研与产业落地,构建开放生态体系。
6. 未来展望
- 世界模型:Emu 3.5 被视为“World Foundation Model”,为 AI 从数字世界向物理世界的迁移奠定基础,预示着具身智能的下一次跃迁。
- 技术迭代:后续计划在 更大规模的多模态数据、更高效的自回归架构 上继续深化,进一步提升跨模态协同与实时交互能力。
小结:Emu 3.5 通过自回归的 Next‑State Prediction、海量多模态训练以及 DiDA 加速技术,实现了从多模态感知到具身行动的统一建模,参数规模达 34 B、训练 token 超 10 万亿,具备强大的文图生成、编辑、时空变换以及跨场景动作规划能力,并计划开源,标志着中国在多模态世界模型领域的领先进展。
 
    	            
    	            声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!
    	    	
					
    	     
						     
                         
						    