1. 背景与动机
CrafText(在中文文献中常写作 TextCraft)是为评估智能体在复杂、开放且动态的多模态环境中遵循自然语言指令的能力而设计的基准测试。它旨在弥补以往基准多聚焦于静态场景、单一模态或简短指令的不足,提供一个能够检验语言理解、空间推理、长期规划以及对新指令/新目标的泛化能力的统一平台。
2. 数据集概览
| 项目 | 内容 |
|---|---|
| 场景数量 | 12 种(包括定位、条件、构建、成就四大任务类别) |
| 目标(Goal) | 496 条(其中 203 条保留作测试集) |
| 指令数量 | 约 3 924 条,每个目标配 5‑6 条自然语言指令 |
| 词汇规模 | 3 423 个唯一单词,词表较大以保证语言多样性 |
| 难度划分 | Easy(单一成就任务)、Medium(短序列任务)和 Hard(长序列、复杂前置条件) |
| 训练/测试划分 | 训练集、改写指令的测试集、全新目标的测试集,分别用于评估指令理解、语言变体鲁棒性和零样本泛化 |
3. 环境与任务类型
- 环境实现:基于 Craftax(Minecraft‑style)扩展而成,支持 视觉+向量 两种观测,并在每个回合随机生成世界,使同一指令在不同实例中呈现不同布局。
- 任务类别
- Localization(定位):在动态地图中找到并移动到指定位置。
- Conditional(条件):在满足特定前置条件后执行操作(如“如果手中有木材则建造工作台”。)
- Building(构建):按照指令摆放方块、组合结构(如“放置一个 2×2 的木质正方形”。)
- Achievements(成就):完成游戏内常规成就或组合多个成就(如“采集木材并制作石剑”。)
- 奖励与终止:每完成一次指令对应的检查函数即给出奖励并可能结束回合,支持 JAX 加速实现高效并行训练。
4. 评估协议
- 指令完成率(Success Rate, SR):在给定指令下,智能体是否成功触发对应检查函数。
- 语言变体鲁棒性:同一目标的多种改写指令会导致 SR 下降,用以衡量模型对词汇/句法多样性的适应能力。
- 新目标泛化:在 New Objects 子集(未见组合)上评估,检验模型对全新任务的零样本推理能力。
- 多步任务难度:分别报告 Easy、Medium、Hard 三类任务的 SR,以反映对长序列规划的掌握程度。
5. 基准模型与实验结果
| 模型 | Easy(单成就) | Easy(组合) | New Objects |
|---|---|---|---|
| PPO‑T | 0.40 | 0.35 | 0.22 |
| PPO‑T+(加入中间步骤推理) | 0.45 | 0.35 | 0.28 |
| Dynalang | 0.15 | 0.10 | 0.10 |
| FiLM | 0.43 | 0.35 | 0.26 |
| 零‑shot LLM(Qwen‑32B、DeepSeek‑32B、MISTRAL‑24B) | 0.21 | 0.10 | 0.12 |
结果显示,加入中间步骤规划的 PPO‑T+ 在所有指标上均领先,尤其在全新目标上表现最强,说明分解指令为子任务是提升泛化的关键。
6. 获取方式与链接
- 论文全文(PDF): https://arxiv.org/pdf/2505.11962 ?
- 代码与数据集(匿名开源): https://anonymous.4open.science/t/CrafText-D217/
- 项目主页(若有):可在论文末尾的 “Project page” 链接中找到进一步的说明(同上 PDF 中提供)。
7. 小结
TextCraft(CrafText)提供了一个 规模可观、任务多样、语言丰富且环境动态 的基准,专为评估 多模态指令遵循 与 跨任务泛化 而设计。它不仅为研究者提供了统一的评测标准,还通过公开的数据、环境实现和基准结果,帮助社区快速对比新模型、探索更强的指令理解与规划方法。
参考文献
- Zoya Volovikova 等. CrafText Benchmark: Advancing Instruction Following in Complex Multimodal Open‑Ended World, arXiv:2505.11962, 2025.
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!