智源发布Emu3.5大模型

AI资讯 8小时前 硕雀
3 0

智源 Emu 3.5 大模型概览


1. 背景与意义

2025 年 10 月 30 日,北京智源人工智能研究院正式发布了 悟界·Emu 3.5,定位为“多模态世界大模型”。它在前代 Emu 3 的基础上,进一步突破了多模态序列的统一建模方式,实现了从“感知‑理解”向“感知‑理解‑行动”的跨场景具身智能跃迁。


2. 模型概述

项目 内容
模型名称 悟界·Emu 3.5(Emu 3.5)
参数规模 约 34 B(相较 Emu 3 的 8 B 大幅提升)
训练目标 Next‑State Prediction(NSP‍——自回归方式预测多模态序列的下一状态,而非仅预测下一个 token,实现了对文本、图像、视频等多模态信息的统一建模
核心创新 离散扩散自适应(DiDA)‍ 技术,使图像生成推理速度提升近 20 倍,性能几乎无损
- 融合 预训练‑微调‑强化学习 三阶段训练流程,提升生成质量与任务适配能力

3. 训练规模与数据

  • 多模态 Token:超过 10 万亿(10 trillion) token,涵盖文本、图像、视频等多模态信息。
  • 视频数据:训练视频时长从 15 年跃升至 790 年,实现了对时空动态的深层学习。
  • 数据来源:主要来源于公开的互联网视频、图文对、跨模态文档等,形成统一的图文交错序列格式进行自回归学习。

4. 能力与应用场景

能力 具体表现
多模态生成 支持 文图生成、图片编辑、时空变换,能够在同一输出中同时呈现文字、图像、视频内容。
具身操作 具备 跨场景动作规划与复杂交互 能力,可生成行动指南、执行多步骤任务的步骤推理,体现出可泛化的世界建模能力。
沉浸式叙事 能围绕任意主题生成 沉浸式故事,实现多模态叙事与视觉引导,适用于数字内容创作、教育培训等。
高效推理 通过 DiDA 技术,推理速度提升约 20 倍,在保持生成质量的前提下实现接近顶级闭源扩散模型的效率。
跨模态理解 在视觉理解、文本理解以及二者的交叉任务上表现出色,可用于 图像问答、视频检索、跨模态检索 等实际业务场景。

5. 开源与生态建设

智源在发布会中承诺 Emu 3.5 将开源,并提供相应的模型权重与推理代码,旨在推动多模态大模型的科研与产业落地,构建开放生态体系。


6. 未来展望

  • 世界模型:Emu 3.5 被视为“World Foundation Model”,为 AI 从数字世界向物理世界的迁移奠定基础,预示着具身智能的下一次跃迁。
  • 技术迭代:后续计划在 更大规模的多模态数据更高效的自回归架构 上继续深化,进一步提升跨模态协同与实时交互能力。

小结:Emu 3.5 通过自回归的 Next‑State Prediction、海量多模态训练以及 DiDA 加速技术,实现了从多模态感知到具身行动的统一建模,参数规模达 34 B、训练 token 超 10 万亿,具备强大的文图生成、编辑、时空变换以及跨场景动作规划能力,并计划开源,标志着中国在多模态世界模型领域的领先进展。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!