蚂蚁灵波开源世界模型 LingBot-World

AI资讯 7小时前 硕雀
5 0

蚂蚁灵波开源世界模型 LingBot-World 详细介绍

蚂蚁灵波科技(Ant Wave AI)在2026年初发布的 LingBot-World 是其具身智能技术体系中的核心支柱之一,旨在为AI的“想象”与“交互”提供高保真、可控且逻辑一致的数字孪生环境。以下是基于最新公开信息的详细解析:

1. 核心定位与愿景

LingBot-World 旨在解决具身智能领域中真实感缺失交互滞后的问题。它不仅仅是一个视频生成模型,更是一个“具身”世界的数字孪生体,使AI能够在类似于真实物理世界的模拟环境中进行试错和学习。

  • 技术闭环:它与 LingBot-Depth(空间感知)和 LingBot-VLA(决策)共同构成了完整的具身智能闭环。
  • 对标前沿:在视觉质量和交互能力上可与 DeepMind 的 Genie 3 相媲美,但在时间维度(长时记忆)和交互实时性上进行了深度优化。

2. 技术架构与模型规模

LingBot-World 采用了先进的混合专家网络(Mixture-of-Experts, MoE)架构,专为处理长时序和交互式数据设计。

  • 模型规模:总参数量约为 28B(28 Billion),但得益于 MoE 架构,推理时只激活 14B 参数,保持了高效性。
  • 分层专家:模型内部包含“高噪声专家”(捕捉全局布局)和“低噪声专家”(细化局部细节),确保生成内容既连贯又细腻。
  • 可扩展数据引擎:通过 Scalable Data Engine 驱动,从大规模游戏环境中学习因果关系和物理规律。

3. 核心特性与优势

LingBot-World 解决了传统世界模型的“幻觉”和“短视”问题,具备以下三个核心优势:

  • 长时记忆与一致性(Memory Consistency)‍:
    • 模型能维持长达 10 分钟以上的连续生成,记忆持久且前后一致,避免了“前后画面不连贯”的幻觉现象。
    • 能够理解因果关系,例如“猫咪撞沙发”不会出现穿模现象,遵循真实的物理规律。
  • 实时交互(Real-time Interaction)‍:
    • 支持键盘或鼠标实时控制角色与相机视角。
    • 交互延迟控制在 1 秒以内,吞吐量约为 16 FPS,实现了近乎即时的画面反馈。
    • 支持通过自然语言指令(如“前面放个烟花”)改变环境或触发事件。
  • 动作代理(Action Agency)‍:
    • 不仅能被动响应指令,还具备自主规划路径的能力,能够模拟AI在物理空间中的决策过程。

4. 应用场景与影响

LingBot-World 为多个行业提供了低成本的“试错空间”:

  • 机器人训练:为机器人提供高保真的模拟环境,实现从虚拟到现实的无缝迁移。
  • 自动驾驶:模拟真实驾驶场景用于算法验证和优化。
  • 游戏与影视:生成高质量的游戏关卡和影视特效素材。
  • AI安全与推理:通过高保真的交互场景,更好地评估AI的决策逻辑和安全性。

5. 开源与社区

蚂蚁灵波科技已开放了 LingBot-World 的模型权重推理代码以及部署视频,并发布了对应的学术论文。此举旨在通过开源推动社区共同参与,提升国内在 AGI通用人工智能)和具身智能领域的竞争力。

总结:LingBot-World 不仅是一个“画画”的模型,更是一个“生活在其中”的数字世界,它让AI不再是被动的观察者,而是拥有记忆、能动性和真实感知的“住户”。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!