CyberGym 是一个专门用于评估人工智能(AI)代理在现实世界网络安全(Cybersecurity)能力的大规模基准测试套件。它由加州大学伯克利分校(UC Berkeley)的研究团队开发,旨在填补现有安全基准(如传统CTF、CWE等)与真实世界漏洞之间的鸿沟。
以下是关于 CyberGym 基准测试的详细介绍:
1. 核心定义与目标
CyberGym 并非传统意义上的“渗透测试”服务(如同名的 CYBERGYM 公司提供的服务),而是一个学术与研究领域的基准(Benchmark)。它的核心目标是:
- 评估 AI 代理的能力:测试人工智能是否能够在没有人工干预的情况下,理解安全漏洞的描述,并生成有效的“概念验证”(Proof-of-Concept, PoC)攻击代码来复现这些漏洞。
- 推动安全研究:通过让 AI 代理面对真实世界的开源项目和已知漏洞,推动 AI 在网络防御、漏洞修复和安全编码等领域的进步。
2. 任务构成与难度等级
CyberGym 的任务设置模拟了真实的漏洞复现流程:
- 输入:每个任务向 AI 代理提供一个高层次的漏洞描述(例如“未正确检查缓冲区长度”)以及目标代码库(如特定版本的 FFmpeg 源码)。
- 目标:代理需要生成能够触发该漏洞的 PoC 测试代码。
- 难度梯度:基准测试分为四个难度级别,从只提供代码库的基本情况,到提供详细的修补程序和复杂的代码上下文,旨在跟踪和推动代理的技术进步。
3. 覆盖范围与规模
- 广泛的项目覆盖:CyberGym 包含了 188 个多样化的开源项目(如 FFmpeg、OpenCV、KAMAILIO 等),涵盖了网络、加密、编程工具等多个领域。
- 大量的真实漏洞:截至 2025 年,该基准套件包含了 1507 个来自真实世界的漏洞实例。这些漏洞主要来源于 OSS-Fuzz(Google 的模糊测试项目)等权威来源。
4. 评估维度
CyberGym 不仅评估复现漏洞的能力,还关注补丁的有效性:
- 基准测试(Benchmarking):衡量 AI 是否成功复现了目标漏洞。
- 安全影响(Security Impact):进一步检测补丁是否完整(即修补后仍可能被利用)或是否暴露了新的零日漏洞。
5. 现实影响与最新进展
- AI 能力的真实检验:研究发现,即使是最先进的模型组合(如 GPT-4.1 + OpenHands),在该套件上的成功率也只有 11.9% - 22% 左右,显示了当前 AI 在安全推理方面仍面临巨大挑战。
- 零日漏洞发现:在实际应用中,部分 AI 代理已经能够发现新的零日漏洞。例如,Claude Opus 4.5 在 CyberGym 上的得分达到了 50.63%,展现了压倒性优势。
6. 相关链接
以下是关于 CyberGym 基准测试的官方文档和学术论文链接:
- 官方论文与报告:
- CYBERGYM: Evaluating AI Agents' Real-World Cybersecurity Capabilities at Scale
- arXiv 预印本:
- CyberGym: Evaluating AI Agents’ Cybersecurity Capabilities with Real-World Vulnerabilities at Scale
- PDF 链接:https://arxiv.org/pdf/2506.02548.pdf
- 新闻与评测:
- Anthropic Claude Opus 在 CyberGym 上的表现:
- 行业影响报道:
- 关于 Xbow 初创公司和 AI 工具的报道链接:http://finance.sina.com.cn/wm/2025-07-04/doc-infehuer0962300.shtml
总结:CyberGym 是目前最具代表性、规模最大的 AI 安全基准之一,它通过模拟真实的漏洞复现场景,帮助研究者量化和提升 AI 在网络安全领域的实际作战能力。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!