智谱 AI发布其旗舰大模型 GLM-5.1

AI资讯 21小时前硕雀

13 0 0

GLM-5.1 概述与 SWE-Bench Pro 成绩分析

智谱 AI（Zhipu AI）于 2026 年 4 月 8 日正式发布了其旗舰大模型 GLM-5.1。该模型在发布后立即引发了行业广泛关注，核心亮点在于其在最贴近真实软件开发场景的 SWE-Bench Pro 基准测试中刷新了全球纪录，成为 国产模型及开源模型中的佼佼者，并且首次在长程任务（Long-Horizon Tasks）能力上实现了质的突破。

以下是对该模型及其 SWE-Bench Pro 成绩的详细介绍：

1. 核心成绩：SWE-Bench Pro 全球领跑

突破性成绩：GLM-5.1 在 SWE-Bench Pro 基准测试中取得了 58.4 分 的成绩。
超越竞争对手：该成绩超越了所有闭源模型，包括：
- Claude Opus 4.6（得分 57.3 分）
- GPT-5.4（得分 57.7 分）
- Gemini 3.1（得分 57.8 分）
排名：成为 全球第一（开源模型首位，国产模型首位），并在综合评测（如 Terminal-Bench 2.0、NL2Repo）中位列全球第三。

2. 长程任务能力的革命

8小时持续工作：GLM-5.1 是全球首个能够在不依赖人工干预的情况下，持续独立工作超过 8 小时 的开源模型。
实际产出：模型能够在单次任务中自主完成从规划、执行、优化到交付的全流程工程任务。例如，GLM-5.1 可以在 8 小时内从零构建一套功能完善的 Linux 桌面系统，工作量相当于一个 4 人团队一周的开发产出。

3. 其他关键特性与优势

模型规格：GLM-5.1 拥有 7440 亿参数，激活维度为 40B。
技术创新：采用了异步强化学习（Asynchronous RL）、双侧重要性采样（Double-Sided Importance Sampling）等技术，大幅提升了长程任务能力。
开源与部署：模型采用 MIT 协议 开源，支持国产芯片全栈适配，提供 API 接入及本地部署方案。
市场定价：GLM-5.1 在 Coding 场景的缓存命中 Token 价格接近 Anthropic 旗下 Claude Sonnet 4.6 水平，实现了与国际顶尖厂商的价格对齐。

4. 行业影响

GLM-5.1 的发布标志着国产大模型竞争焦点从“低价竞争”转向了“能力竞争”。它不仅证明了国产模型在核心编程能力上的追赶能力，还通过开源 MIT 许可证为开发者社区提供了一个强大的工具链。

结论

智谱的 GLM-5.1 通过在 SWE-Bench Pro 基准测试中取得 58.4 分 的全球最佳成绩，以及在长程任务能力上的独特突破，确立了其在国产及开源模型中的领跑地位。这不仅是一次技术迭代，更是国产大模型走向国际化竞争舞台的重要里程碑。

GLM-5.1

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！