UnifoLM(宇树统一大模型)概述
UnifoLM(全称 Unitree 机器人统一大模型)是宇树科技面向通用机器人研发的核心大模型,旨在为不同形态的机器人提供统一的感知‑规划‑执行能力。它把机器人与环境的交互抽象为“世界模型‑动作”架构,使机器人能够在视觉、触觉、 proprioception 等多模态信息的支撑下,实现对未来动作的预测与决策,从而大幅降低真实环境中的试错成本。
1. 技术架构与核心组件
| 组件 | 功能描述 | 关键特性 |
|---|---|---|
| 世界模型(World Model) | 通过 Transformer‑based 骨干网络对环境进行全局建模,学习物理规律(碰撞、动力学等) | 支持仿真引擎,可生成合成训练数据;能够在视觉‑动作序列上进行长程预测 |
| 动作预测头(Action Head) | 基于世界模型输出的状态信息,生成机器人下一步的动作指令 | 与策略增强模块紧耦合,实现即时决策 |
| 状态预测头(State Head) | 预测机器人自身的姿态、关节角度、力位信息 | 为闭环控制提供高精度反馈 |
| 策略增强模块(Policy Enhancement) | 将强化学习策略注入世界模型,提升在复杂任务中的适应性 | 支持模仿学习与强化学习双驱动 |
| 仿真引擎 | 在虚拟环境中生成大规模合成数据,供模型离线预训练 | 大幅降低真实机器人试验风险 |
整体架构采用 端到端 设计,输入多模态感知(RGB‑D、激光雷达、力传感器等),输出统一的动作序列,实现感知‑规划‑执行的闭环闭合。
2. 训练数据与方法
- Open‑X 数据集:UnifoLM 在公开的 Open‑X 大规模机器人交互数据集上进行预训练,随后在自研的仿真数据上微调,以覆盖多种机器人形态和任务场景。
- 多模态融合:模型同时处理视觉、深度、点云、关节状态等信息,实现跨感知通道的特征对齐。
- 模仿学习 + 强化学习:通过专家示范数据进行行为克隆,再利用强化学习在仿真环境中进行策略优化,形成“世界模型‑动作”双向学习闭环。
3. 核心能力
- 感知‑理解:能够从摄像头、激光雷达等多源输入中构建环境的 3D 语义图,识别障碍、可操作对象等。
- 动作预测:基于当前状态预测未来数帧的机器人姿态与末端执行器轨迹,支持视频级别的动作预演。
- 决策规划:在仿真与真实环境之间切换,实时生成符合物理约束的动作指令。
- 自我学习:通过在线强化学习持续改进策略,实现“每天都在升级进化”。
- 跨平台迁移:同一模型可适配 Unitree G1、人形 H1、机器人狗等多种硬件平台,提供统一的 AI 大脑。
4. 应用场景
| 场景 | 具体表现 |
|---|---|
| 人形机器人(G1、H1) | 实现高速行走(2 m/s)、高自由度关节控制(43 DOF),支持堆叠积木、收纳文具等精细操作 |
| 机器人协作 | 多机器人协同完成搬运、装配任务,动作同步误差低于 0.1 s |
| 工业搬运 | 通过仿真生成的策略直接迁移到真实机械臂,实现高效抓取与放置 |
| 教育与研发平台 | 开源模型与代码(GitHub)供学术与企业二次开发,已吸引 100+ 星标和全球开发者参与 |
5. 开源与生态
- 开源时间:2025 年 9 月,宇树科技正式将 UnifoLM‑WMA‑0(世界模型‑动作架构)及其训练/推理代码、模型 Checkpoints 开源至 GitHub。
- 开源内容:包括仿真引擎、策略增强模块、完整的 Transformer 架构实现以及详细的使用文档。
- 社区生态:已有 100+ 星标,全球开发者可基于该框架进行二次创新,推动具身智能(Embodied AI)整体进步。
6. 发展历程与意义
| 时间 | 里程碑 |
|---|---|
| 2024 年 | 首次发布基于 Transformer 的 UnifoLM 大模型,标志着国内机器人大模型的雏形 |
| 2025 年 3‑4 月 | 将模型集成至 Unitree G1 人形机器人,实现商业化演示 |
| 2025 年 9 月 | 开源 UnifoLM‑WMA‑0,提供完整的世界模型‑动作架构,推动跨平台通用机器人学习 |
| 2025 年 后期 | 生态快速扩展,多个行业报告将其列为机器人 AI 关键技术,预期将加速机器人在制造、服务、教育等领域的落地 |
意义:UnifoLM 把“大模型”概念从语言/视觉迁移到具身智能,提供了统一的学习框架,使得不同硬件之间可以共享知识、复用策略,显著降低机器人研发成本,提升了机器人在复杂真实环境中的适应能力,成为国内外机器人 AI 竞争的核心技术之一。
7. 小结
UnifoLM(宇树统一大模型)是一个 基于 Transformer 的多模态世界模型‑动作架构,通过仿真引擎、策略增强和端到端的感知‑规划‑执行闭环,实现了机器人对环境物理规律的深度理解与高效决策。自 2024 年首次发布至 2025 年开源,已在 Unitree G1、人形 H1 等多平台落地,并形成活跃的开源社区,正在推动具身智能向更广阔的工业与服务场景渗透。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!