蚂蚁集团发布 LingBot-VLA模型

AI资讯 2个月前硕雀

30 0 0

蚂蚁集团旗下的灵波科技（LingWave）在2026年1月28日发布了其最新的具身智能基座模型——LingBot-VLA。这是继开源高精度空间感知模型LingBot-Depth后，蚂蚁集团在具身智能领域发布的第二款核心模型，标志着其在机器人通用人工智能（General Embodied AI）方向的技术突破与工程化落地。

以下是关于LingBot-VLA模型的详细介绍：

1. 核心定位与意义

LingBot-VLA（Vision-Language-Action）是一款面向真实机器人操作场景的“智能基座”模型。

跨本体迁移：它支持跨本体（跨不同构型机器人）的迁移能力，实现了“一脑多机”的工程化落地。该模型基于海量真实机器人操作数据训练，能够在不同的机器人平台之间无缝迁移，显著降低了后训练（Fine-tuning）成本。
通用智能基座：作为具身智能的“大脑”，LingBot-VLA具备跨任务（Cross-Task）泛化能力，能够理解语言指令、处理视觉信息，并生成对应的机器人操作动作。

2. 技术架构与创新

LingBot-VLA采用了独特的“脑手协同”策略（Brain-Hand Collaboration）：

混合Transformer架构：模型核心集成了视觉语言模型（VLM）和动作生成模块。其“视觉语言”部分主要基于Qwen2.5-VL模型，负责理解环境（“眼前是什么”）和任务指令（“要做什么”）。
动作专家模式（Action Expert）‍：在模型内部引入了“动作专家”分支，结合条件流匹配技术，实现对机器人动作的精准控制。通过引入深度感知模型LingBot-Depth，显著提升了环境的空间感知能力和3D推理能力。

3. 数据规模与训练细节

数据来源：模型的预训练基于20000+小时的大规模真实遥操作数据集。这些数据覆盖了9种主流双臂机器人构型，包括星海图、松灵、乐聚等厂商的机器人平台。
高效训练：为降低算力成本，LingBot-VLA的后训练工具链在8卡GPU下实现了单卡261样本/秒的吞吐量，训练效率比主流框架高出1.5-2.8倍。

4. 性能表现

在具身智能领域的公开基准评测（如GM-100）中，LingBot-VLA表现优异：

跨本体泛化：在真实机器人的跨本体泛化任务中，其成功率平均提升至15.7%（未使用深度信息时），引入深度信息后进一步提升至17.3%，刷新了真机评测的成功率纪录。
仿真基准：在RoboTwin 2.0仿真基准中，面对高强度的环境随机化干扰（如光照、杂物、高度扰动），其操作成功率比Pi0.5模型提升了约9.92%。

5. 开源生态与工程化

全面开源：蚂蚁集团提供了完整的开源力度，除了模型权重，还同步开放了包括数据处理、高效微调、自动化评估在内的全套代码库。
低门槛适配：模型具备极高的数据效率，仅需80条演示数据即可适配新的机器人任务，这极大地降低了大模型下游任务的适配门槛。

6. 市场与应用前景

LingBot-VLA的发布不仅推动了具身智能的技术发展，也有望带动相关机器人硬件厂商的生态升级。目前该模型已与星海图、松灵、乐聚等机器人厂商完成适配。

综上所述，LingBot-VLA是蚂蚁集团在具身智能领域的一次重要技术迭代，凭借其强大的跨本体迁移能力和高效的开源生态，正在推动从实验室走向真实世界应用的转变。

LingBot-VLA

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！