GLM-5.1 概述与 SWE-Bench Pro 成绩分析
智谱 AI(Zhipu AI)于 2026 年 4 月 8 日正式发布了其旗舰大模型 GLM-5.1。该模型在发布后立即引发了行业广泛关注,核心亮点在于其在最贴近真实软件开发场景的 SWE-Bench Pro 基准测试中刷新了全球纪录,成为 国产模型及开源模型中的佼佼者,并且首次在长程任务(Long-Horizon Tasks)能力上实现了质的突破。
以下是对该模型及其 SWE-Bench Pro 成绩的详细介绍:
1. 核心成绩:SWE-Bench Pro 全球领跑
- 突破性成绩:GLM-5.1 在 SWE-Bench Pro 基准测试中取得了 58.4 分 的成绩。
- 超越竞争对手:该成绩超越了所有闭源模型,包括:
- 排名:成为 全球第一(开源模型首位,国产模型首位),并在综合评测(如 Terminal-Bench 2.0、NL2Repo)中位列全球第三。
2. 长程任务能力的革命
- 8小时持续工作:GLM-5.1 是全球首个能够在不依赖人工干预的情况下,持续独立工作超过 8 小时 的开源模型。
- 实际产出:模型能够在单次任务中自主完成从规划、执行、优化到交付的全流程工程任务。例如,GLM-5.1 可以在 8 小时内从零构建一套功能完善的 Linux 桌面系统,工作量相当于一个 4 人团队一周的开发产出。
3. 其他关键特性与优势
- 模型规格:GLM-5.1 拥有 7440 亿参数,激活维度为 40B。
- 技术创新:采用了异步强化学习(Asynchronous RL)、双侧重要性采样(Double-Sided Importance Sampling)等技术,大幅提升了长程任务能力。
- 开源与部署:模型采用 MIT 协议 开源,支持国产芯片全栈适配,提供 API 接入及本地部署方案。
- 市场定价:GLM-5.1 在 Coding 场景的缓存命中 Token 价格接近 Anthropic 旗下 Claude Sonnet 4.6 水平,实现了与国际顶尖厂商的价格对齐。
4. 行业影响
GLM-5.1 的发布标志着国产大模型竞争焦点从“低价竞争”转向了“能力竞争”。它不仅证明了国产模型在核心编程能力上的追赶能力,还通过开源 MIT 许可证为开发者社区提供了一个强大的工具链。
结论
智谱的 GLM-5.1 通过在 SWE-Bench Pro 基准测试中取得 58.4 分 的全球最佳成绩,以及在长程任务能力上的独特突破,确立了其在国产及开源模型中的领跑地位。这不仅是一次技术迭代,更是国产大模型走向国际化竞争舞台的重要里程碑。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!