小米开源跨域具身大模型MiMo-Embodied

AI资讯 2个月前 硕雀
29 0

小米跨域具身大模型 MiMo‑Embodied 详解


1. 背景与意义

  • 跨域具身智能:传统的具身模型往往只聚焦于单一场景(如机器人或自动驾驶),难以在两类差异巨大的任务之间共享认知与决策能力。MiMo‑Embodied 通过统一的视觉‑语言‑行为(V‑L‑A)框架,实现 自动驾驶 与 室内/工业机器人 两大领域的任务统一建模,标志着具身智能从“垂直专用”向“跨域协同”迈进。
  • 产业价值:模型可直接服务于小米“人‑车‑家”生态,支撑扫地机器人、AGV、智能座舱以及高阶智驾系统的感知‑规划‑执行闭环,帮助降低研发成本、加速产品落地。

2. 模型概览

项目 说明
模型名称 MiMo‑Embodied(全称 X‑Embodied Foundation Model
参数规模 7 B 参数的多模态 Transformer(已在 HuggingFace 开源)
输入/输出 支持 图像 + 文本 输入,输出自然语言指令或动作序列;可通过 API 进行 实时推理
核心任务 具身智能:可供性预测、任务规划、空间理解
自动驾驶:环境感知、状态预测、驾驶规划
跨域能力 同时覆盖上述六大子任务,实现 场景间知识迁移 与 双向协同赋能

3. 技术细节

  1. 模型架构
    • 基于 Transformer 的统一编码器解码器结构。视觉特征由 ViT‑L/14(或同等大规模视觉 backbone)提取,文本采用 LLaMA‑7B‑style 语言模型进行融合。
    • 引入 Chain‑of‑Thought(CoT‍ 推理增强模块,使模型在复杂推理任务(如路径规划)中能够生成中间思考步骤。
  2. 多阶段训练策略
    • 阶段Ⅰ – 具身/自驾能力学习:在大规模多模态数据集(包括家庭场景、道路视频、标注行为序列)进行自监督预训练
    • 阶段Ⅱ – CoT 推理增强:通过任务‑导向的指令微调,让模型学会逐步推理。
    • 阶段Ⅲ – RL 精细强化:在仿真环境(如 CARLA、AI2‑THOR)中使用强化学习进一步提升决策可靠性。
  3. 数据来源
    • 公开的 MiMo‑Dataset(约 10 TB)覆盖 家庭交互、室内导航、城市道路、交通标注 四大子集。
    • 采用 跨模态对齐 与 行为标签 双重监督,确保视觉‑语言‑动作的统一表征。

4. 性能评估

  • 基准覆盖:在 29 项核心基准(包括 17 项具身 AI 基准、12 项自动驾驶基准)中均取得 SOTA 结果,整体领先现有开源与闭源模型。
  • 关键指标(摘自技术报告):
    • Task Planning准确率提升 6.3%(相较于 GPT‑4o)
    • Affordance Prediction:F1 提升 5.8%(相较于 Qwen2.5‑VL)
    • Spatial UnderstandingIoU 提升 4.9%(相较于 RoboBrain‑2.0)
  • 可靠性:多阶段训练显著降低在真实环境中的崩溃率,RL 强化后在 CARLA 长程驾驶测试中跌倒率 < 0.5%。

5. 开源资源与使用方式

资源 链接
代码仓库 GitHubhttps://github.com/XiaomiMiMo/MiMo-Embodied
模型权重 HuggingFace: https://huggingface.co/XiaomiMiMo/MiMo-Embodied-7B
技术报告 arXiv: https://arxiv.org/abs/2511.16518 (PDF 可直接下载)
Demo API 官方提供 RESTful 接口(文档同仓库 README)
社区 论坛、Discord 以及小米 AI 开发者平台均提供技术支持与案例分享

开源后,模型已被全球多家研究机构用于 机器人导航智能家居控制 与 车路协同 的二次开发,形成活跃的生态链。


6. 典型应用场景

场景 具体功能
家庭机器人 通过视觉‑语言指令完成抓取、搬运、清洁等任务;利用可供性预测判断物体可操作性。
自动驾驶 实时感知道路要素、预测周围车辆轨迹、生成安全驾驶规划;可在城市道路与高速场景间无缝切换。
智能座舱 车内语音‑视觉交互,支持手势识别、情境化导航、乘客意图推断。
工业 AGV 在仓库环境中进行路径规划与障碍规避,兼顾搬运与装配的多模态指令执行。

7. 未来展望

  • 规模扩展:计划在 2026 年推出 30 B 版本,以进一步提升跨域推理深度。
  • 多模态深化:加入 音频‑触觉 感知通道,实现更丰富的交互感知。
  • 生态合作:小米正与多家车企、机器人厂商共建 MiMo‑Hub,提供统一的模型服务与插件市场,推动跨行业协同创新。

小结:MiMo‑Embodied 是目前业界首个实现 自动驾驶 ↔ 具身智能 双向跨域协同的基础模型,凭借 7 B 参数的多模态 Transformer、三阶段训练体系以及在 29 项基准上取得的 SOTA 成绩,已经成为“小米人‑车‑家”生态的核心 AI 能力。其全链路开源策略为学术界与产业界提供了统一的研发平台,预计将在未来几年内显著推动智能机器人与自动驾驶技术的融合与落地。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!