CodeArena 是面向代码大语言模型(Code LLM)的评估基准,旨在衡量模型在真实编程任务中的 生成质量与人类偏好对齐程度。与传统只关注代码可执行性的基准(如 HumanEval、MBPP)不同,CodeArena 通过多样化的用户查询、丰富的编程语言和细粒度的任务分类,提供更贴近实际开发场景的评估视角。
| 关键特性 | 说明 |
|---|---|
| 样本规模 | 397 条高质量样本 |
| 任务覆盖 | 40 个子任务,分为 7 大类 40 小类,涵盖代码生成、错误定位、提交信息生成、模块摘要等多种编程场景 |
| 语言多样性 | 支持 44 种编程语言(包括 Python、Java、C++、JavaScript 等) |
| 数据来源 | 真实用户查询(如 StackOverflow、GitHub Issues)经人工筛选、去重后构建,确保与实际开发需求高度吻合 |
| 评估方式 | 采用 人类偏好评估(Human‑Preference)而非仅靠单元测试执行;使用 GPT‑4o 进行两轮比较(A vs B、B vs A)计算胜率 |
| 去重与去泄漏 | 对已有公开基准(MultiPLE、MBPP、McEval、NaturalCodeBench)进行 10‑gram 去重,防止数据泄漏 |
| 配套资源 | 提供 SynCode‑Instruct 合成指令语料库(约 200 B tokens),用于微调提升模型对齐能力 |
| 开放平台 | 代码、评测脚本、API 均公开,可直接调用进行自动化评估 |
主要论文与技术报告
- CodeArena: A Human‑Curated Benchmark for Evaluating Code LLMs Alignment with Human Preferences(2024)
- 论文链接:<https://arxiv.org/pdf/2407.06249 >(对应 Evidence 13)
- 详细阐述了基准的构建流程、任务划分、数据去重策略以及评估方法。
- CodeArena: Evaluating and Aligning CodeLLMs on Human Preference(ACL 2024)
- 论文 PDF:<https://openreview.net/pdf/fa2e04b8882ec655af80c600f3ae8424fe3a23bf.pdf >(Evidence 6、10、14)
- 对比了 CodeArena 与其他代码基准的差异,强调了人类偏好评估的价值。
- CodeArena: A Collective Evaluation Platform for LLM Code Generation(2024)
- 平台介绍页面:<https://codearenaeval.github.io/ >(Evidence 13)
- 说明了在线评测平台的动态评分机制、API 使用方式以及防止基准污染的设计。
官方代码仓库与数据获取
- GitHub 项目主页(包含基准数据、评测脚本、基线实现):
<https://github.com/CodeArenaEval/CodeArena >(可在仓库 README 中找到下载链接) - Long Code Arena(针对长上下文代码模型的扩展基准,包含 CI 构建修复、项目级代码补全等任务)
- 论文链接:<https://openreview.net/pdf?id=aQoUjxlgNE >(Evidence 3、4、7)
- 该基准与 CodeArena 互补,侧重于大规模代码库的处理能力。
使用建议
- 模型对齐:在已有的代码生成模型上进行 人类偏好微调(如使用 SynCode‑Instruct),可显著提升在 CodeArena 上的胜率。
- 基准对比:将模型在 CodeArena 与 HumanEval、MBPP 等传统基准的分数一起报告,展示执行正确性与人类偏好两方面的表现。
- 自动化评测:利用公开的 API(RESTful)或 Python 客户端脚本,批量提交模型输出并获取对齐评分,适合持续集成(CI)流程。
简要结论
CodeArena 通过 真实用户需求、跨语言多任务、以及人类偏好评估,为代码大模型的研发提供了更全面、更贴近实际开发的测评标准。研究者和工业界可以直接使用其公开数据和评测平台,对模型进行对齐微调、性能对比以及迭代改进。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!