OpenCompass(中文名“司南”)是由上海 AI 实验室等机构联合推出的 开源、统一、可复现的大模型评测平台,旨在为大语言模型(LLM)和多模态模型提供 全面、客观、可比 的能力测评。它通过 CompassKit、CompassHub、CompassRank 三大核心组件,构建了一个从 数据集管理 → 评测执行 → 排行榜展示 的完整闭环。
1. 主要组成
| 组件 | 功能 | 关键特性 |
|---|---|---|
| CompassKit | 评测工具包 | 包含针对 LLM 与多模态模型的评估器(如 ACCEvaluator、BleuEvaluator、EMEvaluator 等),支持 HuggingFace、API、vLLM、LMDeploy 等多种推理后端,提供零样本、少样本、链式推理等评估方式 |
| CompassHub | 基准数据集社区 | 统一的基准资源导航平台,收录 70+ 数据集、40 万+ 测试问题,支持用户提交自定义基准,形成开放的基准生态 |
| CompassRank | 公开排行榜 | 汇总所有模型在各维度上的得分,形成公开的榜单(语言、知识、推理、数学、代码、智能体等),便于对比与追踪模型进步 |
2. 评测维度与覆盖
OpenCompass 将模型能力划分为 八大基本维度,分别对应 语言理解、知识准确性、逻辑推理、创意生成、数学求解、编程能力、文本分析、智能体交互,并在每个维度下精选 70+ 基准数据集(如 MMLU、C‑Eval、GSM8K、HumanEval、MMBench 等),累计 40 万 以上测试题目。
| 维度 | 代表基准 | 评估指标 |
|---|---|---|
| 语言理解 | CEval、MMLU | Accuracy |
| 知识准确性 | TriviaQA、Winogrande | Accuracy |
| 逻辑推理 | HellaSwag、PIQA | Accuracy |
| 创意生成 | StoryCloze、OpenAI‑Prompt | BLEU / ROUGE |
| 数学求解 | GSM8K、MathVista | Pass@1 |
| 编程能力 | HumanEval、MBPP | Pass@1 |
| 文本分析 | Summarization、XSum | ROUGE‑L |
| 智能体交互 | AgentBench、Tool‑Use | Success Rate |
(具体数据集与指标可在 OpenCompass 官方文档中查阅)。
3. 关键特性
- 开源与可复现:代码、配置、数据均在 GitHub / Gitee 上公开,支持 conda、pip 安装,提供完整的实验管理与日志记录功能。
- 分布式高效评测:内置多卡、跨节点分布式执行框架,可在数十张 GPU 上快速完成大规模模型评测。
- 多模型兼容:支持 开源模型(如 LLaMA、InternLM、Qwen)和 商业 API(OpenAI、Claude、Gemini),并可自定义推理后端。
- 自动化后处理:提供 数据污染检测、长上下文评估、工具使用评估 等高级功能,帮助发现模型的“应试记忆”或鲁棒性问题。
- 社区驱动:用户可通过 CompassHub 提交新基准、共享评测结果,形成生态闭环。
4. 使用流程(简要)
- 环境准备:创建 conda 环境,安装 OpenCompass(
pip install opencompass)。 - 模型配置:在
models/中声明模型(本地 HuggingFace、API、vLLM 等),设置推理参数。 - 基准选择:通过
tools/list_configs.py查看可用基准,或在 CompassHub 浏览并挑选。 - 运行评测:执行
opencompass run,系统自动下载数据、分配资源、记录日志。 - 结果查看:评测完成后生成
result.json与可视化报告,自动上传至 CompassRank 进行榜单展示。
5. 影响与应用
- 学术研究:多数最新的大模型论文(如 InternVL、Qwen、LLaMA‑2)均使用 OpenCompass 进行能力对标,提供统一的比较基准。
- 产业落地:企业在模型选型、调优、质量评估时,依赖 OpenCompass 的 精准指标 与 公开排行榜,实现快速迭代。
- 标准制定:作为国内最受关注的大模型评测框架,OpenCompass 为行业制定了 统一的评测规范,推动了模型评测的透明化与公平性。
6. 小结
OpenCompass 通过 CompassKit(评测工具)、CompassHub(基准库)和 CompassRank(排行榜)三位一体的设计,提供了 覆盖语言、知识、推理、数学、代码、智能体等多维度 的 大规模、可复现、开源 基准测试体系。它不仅帮助研究者系统评估模型能力,也为企业提供了可靠的模型选型依据,已成为国内外大模型评测的核心平台之一。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!