蚂蚁集团发布 LingBot-VLA模型

AI资讯 2小时前 硕雀
2 0

蚂蚁集团旗下的灵波科技(LingWave)在2026年1月28日发布了其最新的具身智能基座模型——LingBot-VLA。这是继开源高精度空间感知模型LingBot-Depth后,蚂蚁集团在具身智能领域发布的第二款核心模型,标志着其在机器人通用人工智能(General Embodied AI)方向的技术突破与工程化落地。

以下是关于LingBot-VLA模型的详细介绍:

1. 核心定位与意义

LingBot-VLA(Vision-Language-Action)是一款面向真实机器人操作场景的“智能基座”模型。

  • 跨本体迁移:它支持跨本体(跨不同构型机器人)的迁移能力,实现了“一脑多机”的工程化落地。该模型基于海量真实机器人操作数据训练,能够在不同的机器人平台之间无缝迁移,显著降低了后训练Fine-tuning)成本。
  • 通用智能基座:作为具身智能的“大脑”,LingBot-VLA具备跨任务(Cross-Task)泛化能力,能够理解语言指令、处理视觉信息,并生成对应的机器人操作动作。

2. 技术架构与创新

LingBot-VLA采用了独特的“脑手协同”策略(Brain-Hand Collaboration):

  • 混合Transformer架构:模型核心集成了视觉语言模型VLM)和动作生成模块。其“视觉语言”部分主要基于Qwen2.5-VL模型,负责理解环境(“眼前是什么”)和任务指令(“要做什么”)。
  • 动作专家模式(Action Expert)‍:在模型内部引入了“动作专家”分支,结合条件流匹配技术,实现对机器人动作的精准控制。通过引入深度感知模型LingBot-Depth,显著提升了环境的空间感知能力和3D推理能力。

3. 数据规模与训练细节

  • 数据来源:模型的预训练基于20000+小时的大规模真实遥操作数据集。这些数据覆盖了9种主流双臂机器人构型,包括星海图、松灵、乐聚等厂商的机器人平台。
  • 高效训练:为降低算力成本,LingBot-VLA的后训练工具链在8卡GPU下实现了单卡261样本/秒的吞吐量,训练效率比主流框架高出1.5-2.8倍。

4. 性能表现

在具身智能领域的公开基准评测(如GM-100)中,LingBot-VLA表现优异:

  • 跨本体泛化:在真实机器人的跨本体泛化任务中,其成功率平均提升至15.7%(未使用深度信息时),引入深度信息后进一步提升至17.3%,刷新了真机评测的成功率纪录。
  • 仿真基准:在RoboTwin 2.0仿真基准中,面对高强度的环境随机化干扰(如光照、杂物、高度扰动),其操作成功率比Pi0.5模型提升了约9.92%。

5. 开源生态与工程化

  • 全面开源:蚂蚁集团提供了完整的开源力度,除了模型权重,还同步开放了包括数据处理、高效微调、自动化评估在内的全套代码库。
  • 低门槛适配:模型具备极高的数据效率,仅需80条演示数据即可适配新的机器人任务,这极大地降低了大模型下游任务的适配门槛。

6. 市场与应用前景

LingBot-VLA的发布不仅推动了具身智能的技术发展,也有望带动相关机器人硬件厂商的生态升级。目前该模型已与星海图、松灵、乐聚等机器人厂商完成适配。

综上所述,LingBot-VLA是蚂蚁集团在具身智能领域的一次重要技术迭代,凭借其强大的跨本体迁移能力和高效的开源生态,正在推动从实验室走向真实世界应用的转变。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!