宇树开源 UnifoLM-VLA-0 大模型详细介绍
宇树(UAS)开源的 UnifoLM-VLA-0 是目前(截至2026年1月)国内外开源界针对通用人形机器人操作最具代表性的大模型之一。该模型是 UnifoLM 系列中的旗舰产品,核心目标是打破传统视觉语言模型(VLM)在物理交互中的局限,实现从“图文理解”向具备物理常识的“具身大脑”(Embodied Brain)进化。
以下是对该模型的详细拆解介绍:
1. 模型定位与核心目标
- 定位:通用人形机器人操作的视觉-语言-动作(VLA)大模型。
- 核心突破:传统 VLM(如 GPT-4V、Gemini Vision)虽然擅长图文理解,但在实际机器人操作(如抓取、插拔)时,往往缺乏对几何空间、动力学约束的理解。UnifoLM-VLA-0 通过在真实机器人操作数据上继续预训练,赋予了模型“具身智能”(Embodied Intelligence),能够理解物体的物理属性并规划动作。
2. 技术架构与底座模型
- 底座模型:基于开源的 Qwen2.5-VL-7B 模型构建,这是当前最强大的开源多模态视觉语言模型之一。
- 创新结构:在 Qwen2.5-VL-7B 的基础上,额外集成了 动作预测头(Action Prediction Head),并引入了 前向与逆向动力学约束,实现了对动作序列的统一建模与长时序规划能力。
3. 训练数据与方法
- 多模态数据集:构建了覆盖通用与机器人场景的多任务数据集,涵盖了 2D/3D 空间细节、任务层级分解、空间关系推理等八大维度。
- 真实机器人数据:模型的关键数据来源于约 340 小时 的真实人形机器人(如宇树 G1)操作数据。这些数据包括了离散动作的预测、全链路动力学预测以及针对操作任务的系统化清洗。
- 持续预训练:通过深度融合文本指令与 2D/3D 空间细节,实现了对机器人与环境交互规律的深度理解。
4. 关键能力与性能表现
- 空间推理:在多类任务场景下,展现出显著增强的空间推理能力,能够精准理解物体的几何位置和关系。
- 长时序规划:支持长时序动作规划与决策,能够处理复杂的连续操作任务。
- 鲁棒性:在外部扰动条件下,模型表现出良好的执行鲁棒性与抗干扰能力。
- Benchmark 表现:
- 在 LIBERO 仿真基准测试中,模型取得了接近最优的性能。
- 在真实机器人验证中,仅凭单一策略网络,即可高质量完成 12 类复杂操作任务(如开闭抽屉、插拔插头、抓取放置等)。
- 在 “no thinking” 模式下的零样本测试中,可比肩商用模型 Gemini-Robotics-ER 1.5。
5. 开源与应用
- 开源状态:该模型已于2026年1月正式开源,项目主页与代码已在 GitHub 平台公布,供开发者与研究人员获取。
- 应用场景:主要面向通用人形机器人的操作控制,适用于家庭服务机器人、工业协作机器人等需要高精度操作和环境理解的场景。
总结
UnifoLM-VLA-0 代表了开源界在机器人具身智能方向的最新进展。它不仅仅是一个看图说话的模型,而是具备了看图推理、说图指令、做图动作的完整闭环能力,为人形机器人从“工具”向“伙伴”迈进提供了关键技术基础。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!