智源发布Emu3.5大模型

AI资讯 8小时前硕雀

3 0 0

智源 Emu 3.5 大模型概览

1. 背景与意义

2025 年 10 月 30 日，北京智源人工智能研究院正式发布了 悟界·Emu 3.5，定位为“多模态世界大模型”。它在前代 Emu 3 的基础上，进一步突破了多模态序列的统一建模方式，实现了从“感知‑理解”向“感知‑理解‑行动”的跨场景具身智能跃迁。

2. 模型概述

项目	内容
模型名称	悟界·Emu 3.5（Emu 3.5）
参数规模	约 34 B（相较 Emu 3 的 8 B 大幅提升）
训练目标	Next‑State Prediction（NSP）‍——自回归方式预测多模态序列的下一状态，而非仅预测下一个 token，实现了对文本、图像、视频等多模态信息的统一建模
核心创新	- 离散扩散自适应（DiDA）‍ 技术，使图像生成推理速度提升近 20 倍，性能几乎无损 - 融合预训练‑微调‑强化学习三阶段训练流程，提升生成质量与任务适配能力

3. 训练规模与数据

多模态 Token 数：超过 10 万亿（10 trillion） token，涵盖文本、图像、视频等多模态信息。
视频数据：训练视频时长从 15 年跃升至 790 年，实现了对时空动态的深层学习。
数据来源：主要来源于公开的互联网视频、图文对、跨模态文档等，形成统一的图文交错序列格式进行自回归学习。

4. 能力与应用场景

能力	具体表现
多模态生成	支持文图生成、图片编辑、时空变换，能够在同一输出中同时呈现文字、图像、视频内容。
具身操作	具备跨场景动作规划与复杂交互能力，可生成行动指南、执行多步骤任务的步骤推理，体现出可泛化的世界建模能力。
沉浸式叙事	能围绕任意主题生成沉浸式故事，实现多模态叙事与视觉引导，适用于数字内容创作、教育培训等。
高效推理	通过 DiDA 技术，推理速度提升约 20 倍，在保持生成质量的前提下实现接近顶级闭源扩散模型的效率。
跨模态理解	在视觉理解、文本理解以及二者的交叉任务上表现出色，可用于图像问答、视频检索、跨模态检索等实际业务场景。

5. 开源与生态建设

智源在发布会中承诺 Emu 3.5 将开源，并提供相应的模型权重与推理代码，旨在推动多模态大模型的科研与产业落地，构建开放生态体系。

6. 未来展望

世界模型：Emu 3.5 被视为“World Foundation Model”，为 AI 从数字世界向物理世界的迁移奠定基础，预示着具身智能的下一次跃迁。
技术迭代：后续计划在 更大规模的多模态数据、更高效的自回归架构 上继续深化，进一步提升跨模态协同与实时交互能力。

小结：Emu 3.5 通过自回归的 Next‑State Prediction、海量多模态训练以及 DiDA 加速技术，实现了从多模态感知到具身行动的统一建模，参数规模达 34 B、训练 token 超 10 万亿，具备强大的文图生成、编辑、时空变换以及跨场景动作规划能力，并计划开源，标志着中国在多模态世界模型领域的领先进展。

Emu3.5大模型

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！