什么是CyberGym基准测试

AI解读 5小时前 硕雀
2 0

CyberGym 是一个专门用于评估人工智能AI)代理在现实世界网络安全(Cybersecurity)能力的大规模基准测试套件。它由加州大学伯克利分校(UC Berkeley)的研究团队开发,旨在填补现有安全基准(如传统CTF、CWE等)与真实世界漏洞之间的鸿沟。

以下是关于 CyberGym 基准测试的详细介绍:

1. 核心定义与目标

CyberGym 并非传统意义上的“渗透测试”服务(如同名的 CYBERGYM 公司提供的服务),而是一个学术与研究领域的基准(Benchmark)。它的核心目标是:

  • 评估 AI 代理的能力:测试人工智能是否能够在没有人工干预的情况下,理解安全漏洞的描述,并生成有效的“概念验证”(Proof-of-Concept, PoC)攻击代码来复现这些漏洞。
  • 推动安全研究:通过让 AI 代理面对真实世界的开源项目和已知漏洞,推动 AI 在网络防御、漏洞修复和安全编码等领域的进步。

2. 任务构成与难度等级

CyberGym 的任务设置模拟了真实的漏洞复现流程:

  • 输入:每个任务向 AI 代理提供一个高层次的漏洞描述(例如“未正确检查缓冲区长度”)以及目标代码库(如特定版本的 FFmpeg 源码)。
  • 目标:代理需要生成能够触发该漏洞的 PoC 测试代码。
  • 难度梯度:基准测试分为四个难度级别,从只提供代码库的基本情况,到提供详细的修补程序和复杂的代码上下文,旨在跟踪和推动代理的技术进步。

3. 覆盖范围与规模

  • 广泛的项目覆盖:CyberGym 包含了 188 个多样化的开源项目(如 FFmpeg、OpenCV、KAMAILIO 等),涵盖了网络、加密、编程工具等多个领域。
  • 大量的真实漏洞:截至 2025 年,该基准套件包含了 1507 个来自真实世界的漏洞实例。这些漏洞主要来源于 OSS-Fuzz(Google 的模糊测试项目)等权威来源。

4. 评估维度

CyberGym 不仅评估复现漏洞的能力,还关注补丁的有效性:

  • 基准测试(Benchmarking)‍:衡量 AI 是否成功复现了目标漏洞。
  • 安全影响(Security Impact)‍:进一步检测补丁是否完整(即修补后仍可能被利用)或是否暴露了新的零日漏洞。

5. 现实影响与最新进展

  • AI 能力的真实检验:研究发现,即使是最先进的模型组合(如 GPT-4.1 + OpenHands),在该套件上的成功率也只有 11.9% - 22% 左右,显示了当前 AI 在安全推理方面仍面临巨大挑战。
  • 零日漏洞发现:在实际应用中,部分 AI 代理已经能够发现新的零日漏洞。例如,Claude Opus 4.5 在 CyberGym 上的得分达到了 50.63%,展现了压倒性优势。

6. 相关链接

以下是关于 CyberGym 基准测试的官方文档和学术论文链接:

总结:CyberGym 是目前最具代表性、规模最大的 AI 安全基准之一,它通过模拟真实的漏洞复现场景,帮助研究者量化和提升 AI 在网络安全领域的实际作战能力。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!