智源发布“悟界”系列大模型

智源研究院在2025年6月6日发布的“悟界”系列大模型,标志着人工智能技术从数字世界向物理世界的深度融合。这一系列模型不仅代表了智源在人工智能前沿技术上的创新能力,也为未来的科技应用开辟了全新的可能性。

悟界系列大模型的背景与意义

“悟道”系列大模型的发布,是智源研究院在人工智能领域的重要里程碑。而“悟界”系列的推出,则进一步推动了AI技术从数字世界迈向物理世界的进程。这一系列模型的命名“悟界”不仅体现了对虚实世界边界的突破,也意味着对物理世界的赋能。

悟界系列大模型的核心组成

“悟界”系列大模型包含多个重要模型,它们分别是:

  1. 原生多模态世界模型 Emu3:这是全球首个原生多模态世界模型,它以下一个 token 预测作为核心范式,打通了多模态学习的路径,摆脱了扩散模型或组合式架构的复杂性。Emu3 实现了真正的可扩展性,从一开始便在底层结构中融合进文本、图像、视频、声音甚至脑信号在内的各种模态,告别了简单的模态拼接。
  2. 脑科学多模态通用基础模型见微 Brainμ:基于 Emu3 架构,引入脑信号这一新的模态数据,实现了单一模型完成多种神经科学任务的大一统。多模态与脑科学模型未来可成为人机交互具身场景下的基础模型。
  3. 跨本体具身大小脑协作框架 RoboOS 2.0:这是一个支持 MCP(多模态感知)的跨本体大小脑协作框架,旨在实现具身智能的高效协同。
  4. 具身大脑 RoboBrain 2.0:这是全球首个具身大脑大模型,结合了 RoboOS 2.0 的协作框架,实现了对真实世界环境的感知、决策与交互。
  5. 全原子微观生命模型 OpenComplex2:这是智源在“悟界”系列中推出的全原子级微观生命建模模型,标志着多模态大模型在科学领域突破了又一生命尺度。该模型能够理解微观生命的“静动态”,为生命科学的研究提供了新的工具和视角。

悟界系列大模型的技术特点

  1. 多模态统一架构:Emu3 采用自回归技术路线,统一文字、图像、视频等多模态数据,构建了模态无关的统一表征空间,可实现文本、图像、视频的任意组合理解与生成。
  2. 全原子级建模:OpenComplex2 能够在原子级别上模拟生命体的动态行为,为生命科学的研究提供了新的视角和工具。
  3. 具身智能:RoboBrain 2.0 结合了 RoboOS 2.0 的协作框架,实现了对真实世界环境的感知、决策与交互,推动了具身智能的发展。
  4. 开源生态:智源研究院全面开源了“悟道·天鹰”(Aquila)语言大模型系列和“悟道·视界”视觉大模型系列,同时与多所高校和科研院所合作,构建了 FlagEval(天秤)开源大模型评测体系与开放平台。通过这些全方位的大模型技术、评测体系以及广泛的开源生态,智源为大模型行业的发展提供了全方位的支持。

悟界系列大模型的未来展望

“悟界”系列大模型的发布,标志着人工智能从数字世界迈向物理世界的里程碑。未来,真正的大模型时代不会止步于提示框,而将深入到每一个理解世界、改变世界的系统中。智源研究院院长王仲远在接受专访时,深入阐述了“悟界”背后的研究逻辑、技术布局与未来方向。他提到,“悟界”系列涵盖了原生多模态世界模型 Emu3、脑科学多模态通用基础模型见微 Brainμ、跨本体具身大小脑协作框架 RoboOS 2.0 与具身大脑 RoboBrain 2.0 以及全原子微观生命模型 OpenComplex2,几乎囊括了当前AI与人类核心认知结构、现实物理世界交互及生命本质建模的所有前沿探索。

悟界系列大模型的行业影响

智源研究院已与全球20多家具身智能企业建立战略合作关系,共同打造开放繁荣、协同共生的具身智能生态体系。智源打造的覆盖模型、算法、数据、评测、系统的大模型开源技术体系 FlagOpen,截至目前,已开源约200个模型和160个数据集。其中,模型全球总下载量超6.4亿次,开源数据集下载量近113万次,开源项目代码下载量超140万次。

总结

“悟界”系列大模型的发布,不仅展示了智源在人工智能前沿技术上的创新能力,也为未来的科技应用开辟了全新的可能性。通过多模态统一架构、全原子级建模、具身智能等技术特点,智源研究院推动了AI技术从数字世界向物理世界的深度融合,为人工智能的发展树立了新的标杆

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!