Terminal-Bench(终端基准)是一个用于评估AI代理在终端环境中执行复杂任务能力的基准测试平台。它旨在评估AI代理在真实终端环境中的能力,包括代码编译、模型训练、服务器设置等真实世界任务。该基准测试平台由斯坦福大学与Laude合作推出,并已纳入Anthropic的Claude 4版本。
Terminal-Bench的核心目标是评估AI代理在终端环境中执行复杂任务的能力。它包含多个任务和评估工具,帮助代理开发者量化其代理在终端环境中的掌握程度。该基准测试平台包含任务数据集和连接语言模型与终端沙箱的执行环境。目前,Terminal-Bench处于早期beta阶段,包含约50个任务,未来将扩展为全面的AI代理测试平台。
Terminal-Bench的任务设计涵盖了科学计算、网络配置、数据分析等场景,任务设计为手工设计、人工验证,以确保任务的真实性和挑战性。用户可以通过安装仓库并运行命令来使用Terminal-Bench,例如uv run scripts_python/run_harness.py
。用户还可以贡献新任务,文档提供了详细的使用指南。
Terminal-Bench在AI代理评估中具有重要意义。例如,GLM-4.5模型在Terminal-Bench上的表现被用于综合衡量模型的通用能力。此外,Anthropic的Claude Opus 4.1在Terminal-Bench上的得分也显示出其在代码修改和调试方面的提升。这些结果表明,Terminal-Bench在评估AI代理在复杂任务中的表现方面具有重要价值。
Terminal-Bench的挑战在于其任务的复杂性和环境的复杂性。例如,某些任务要求代理从源代码构建Linux内核,或需要代理自行下载源代码,这需要代理具备强大的问题解决能力。这些挑战反映了真实世界任务的复杂性,也推动了AI代理能力的不断提升。
Terminal-Bench是一个用于评估AI代理在终端环境中执行复杂任务能力的基准测试平台,具有重要的研究和应用价值。