宇树开源 UnifoLM-VLA-0 大模型

AI资讯 2小时前 硕雀
2 0

宇树开源 UnifoLM-VLA-0 大模型详细介绍

宇树(UAS)开源的 UnifoLM-VLA-0 是目前(截至2026年1月)国内外开源界针对通用人形机器人操作最具代表性的大模型之一。该模型是 UnifoLM 系列中的旗舰产品,核心目标是打破传统视觉语言模型VLM)在物理交互中的局限,实现从“图文理解”向具备物理常识的“具身大脑”(Embodied Brain)进化。

以下是对该模型的详细拆解介绍:

1. 模型定位与核心目标

  • 定位:通用人形机器人操作的视觉-语言-动作(VLA)大模型。
  • 核心突破:传统 VLM(如 GPT-4V、Gemini Vision)虽然擅长图文理解,但在实际机器人操作(如抓取、插拔)时,往往缺乏对几何空间、动力学约束的理解。UnifoLM-VLA-0 通过在真实机器人操作数据上继续预训练,赋予了模型“具身智能”(Embodied Intelligence),能够理解物体的物理属性并规划动作。

2. 技术架构与底座模型

  • 底座模型:基于开源的 Qwen2.5-VL-7B 模型构建,这是当前最强大的开源多模态视觉语言模型之一。
  • 创新结构:在 Qwen2.5-VL-7B 的基础上,额外集成了 动作预测头(Action Prediction Head)‍,并引入了 前向与逆向动力学约束,实现了对动作序列的统一建模与长时序规划能力。

3. 训练数据与方法

  • 多模态数据集:构建了覆盖通用与机器人场景的多任务数据集,涵盖了 2D/3D 空间细节、任务层级分解、空间关系推理等八大维度。
  • 真实机器人数据:模型的关键数据来源于约 340 小时 的真实人形机器人(如宇树 G1)操作数据。这些数据包括了离散动作的预测、全链路动力学预测以及针对操作任务的系统化清洗。
  • 持续预训练:通过深度融合文本指令与 2D/3D 空间细节,实现了对机器人与环境交互规律的深度理解。

4. 关键能力与性能表现

  • 空间推理:在多类任务场景下,展现出显著增强的空间推理能力,能够精准理解物体的几何位置和关系。
  • 长时序规划:支持长时序动作规划与决策,能够处理复杂的连续操作任务。
  • 鲁棒性:在外部扰动条件下,模型表现出良好的执行鲁棒性与抗干扰能力。
  • Benchmark 表现
    • 在 LIBERO 仿真基准测试中,模型取得了接近最优的性能。
    • 在真实机器人验证中,仅凭单一策略网络,即可高质量完成 12 类复杂操作任务(如开闭抽屉、插拔插头、抓取放置等)。
    • 在 “no thinking” 模式下的零样本测试中,可比肩商用模型 Gemini-Robotics-ER 1.5。

5. 开源与应用

  • 开源状态:该模型已于2026年1月正式开源,项目主页与代码已在 GitHub 平台公布,供开发者与研究人员获取。
  • 应用场景:主要面向通用人形机器人的操作控制,适用于家庭服务机器人、工业协作机器人等需要高精度操作和环境理解的场景。

总结

UnifoLM-VLA-0 代表了开源界在机器人具身智能方向的最新进展。它不仅仅是一个看图说话的模型,而是具备了看图推理、说图指令、做图动作的完整闭环能力,为人形机器人从“工具”向“伙伴”迈进提供了关键技术基础。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!