什么是CyberGym基准测试

AI解读 5小时前硕雀

2 0 0

CyberGym 是一个专门用于评估人工智能（AI）代理在现实世界网络安全（Cybersecurity）能力的大规模基准测试套件。它由加州大学伯克利分校（UC Berkeley）的研究团队开发，旨在填补现有安全基准（如传统CTF、CWE等）与真实世界漏洞之间的鸿沟。

以下是关于 CyberGym 基准测试的详细介绍：

CyberGym 并非传统意义上的“渗透测试”服务（如同名的 CYBERGYM 公司提供的服务），而是一个学术与研究领域的基准（Benchmark）。它的核心目标是：

评估 AI 代理的能力：测试人工智能是否能够在没有人工干预的情况下，理解安全漏洞的描述，并生成有效的“概念验证”（Proof-of-Concept, PoC）攻击代码来复现这些漏洞。
推动安全研究：通过让 AI 代理面对真实世界的开源项目和已知漏洞，推动 AI 在网络防御、漏洞修复和安全编码等领域的进步。

CyberGym 的任务设置模拟了真实的漏洞复现流程：

广泛的项目覆盖：CyberGym 包含了 188 个多样化的开源项目（如 FFmpeg、OpenCV、KAMAILIO 等），涵盖了网络、加密、编程工具等多个领域。
大量的真实漏洞：截至 2025 年，该基准套件包含了 1507 个来自真实世界的漏洞实例。这些漏洞主要来源于 OSS-Fuzz（Google 的模糊测试项目）等权威来源。

CyberGym 不仅评估复现漏洞的能力，还关注补丁的有效性：

AI 能力的真实检验：研究发现，即使是最先进的模型组合（如 GPT-4.1 + OpenHands），在该套件上的成功率也只有 11.9% - 22% 左右，显示了当前 AI 在安全推理方面仍面临巨大挑战。
零日漏洞发现：在实际应用中，部分 AI 代理已经能够发现新的零日漏洞。例如，Claude Opus 4.5 在 CyberGym 上的得分达到了 50.63%，展现了压倒性优势。

以下是关于 CyberGym 基准测试的官方文档和学术论文链接：

官方论文与报告：
- CYBERGYM: Evaluating AI Agents' Real-World Cybersecurity Capabilities at Scale
  - PDF 链接：https://openreview.net/pdf/fd3218fbf3e8850d37fd97fd995a917bbfd6a727.pdf
- arXiv 预印本：
  - CyberGym: Evaluating AI Agents’ Cybersecurity Capabilities with Real-World Vulnerabilities at Scale
  - PDF 链接：https://arxiv.org/pdf/2506.02548.pdf
新闻与评测：
- Anthropic Claude Opus 在 CyberGym 上的表现：
  - 新闻报道链接：https://www.163.com/dy/article/KPVV2IHS051100B9.html
- 行业影响报道：
  - 关于 Xbow 初创公司和 AI 工具的报道链接：http://finance.sina.com.cn/wm/2025-07-04/doc-infehuer0962300.shtml

总结：CyberGym 是目前最具代表性、规模最大的 AI 安全基准之一，它通过模拟真实的漏洞复现场景，帮助研究者量化和提升 AI 在网络安全领域的实际作战能力。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！