智谱 AI发布其旗舰大模型 GLM-5.1

AI资讯 21小时前 硕雀
13 0

GLM-5.1 概述与 SWE-Bench Pro 成绩分析

智谱 AI(Zhipu AI)于 2026 年 4 月 8 日正式发布了其旗舰大模型 GLM-5.1。该模型在发布后立即引发了行业广泛关注,核心亮点在于其在最贴近真实软件开发场景的 SWE-Bench Pro 基准测试中刷新了全球纪录,成为 国产模型及开源模型中的佼佼者,并且首次在长程任务(Long-Horizon Tasks)能力上实现了质的突破。

以下是对该模型及其 SWE-Bench Pro 成绩的详细介绍:

1. 核心成绩:SWE-Bench Pro 全球领跑

  • 突破性成绩:GLM-5.1 在 SWE-Bench Pro 基准测试中取得了 58.4 分 的成绩。
  • 超越竞争对手:该成绩超越了所有闭源模型,包括:
    • Claude Opus 4.6(得分 57.3 分)
    • GPT-5.4(得分 57.7 分)
    • Gemini 3.1(得分 57.8 分)
  • 排名:成为 全球第一(开源模型首位,国产模型首位),并在综合评测(如 Terminal-Bench 2.0、NL2Repo)中位列全球第三。

2. 长程任务能力的革命

  • 8小时持续工作:GLM-5.1 是全球首个能够在不依赖人工干预的情况下,持续独立工作超过 8 小时 的开源模型。
  • 实际产出:模型能够在单次任务中自主完成从规划、执行、优化到交付的全流程工程任务。例如,GLM-5.1 可以在 8 小时内从零构建一套功能完善的 Linux 桌面系统,工作量相当于一个 4 人团队一周的开发产出。

3. 其他关键特性与优势

  • 模型规格:GLM-5.1 拥有 7440 亿参数,激活维度为 40B。
  • 技术创新:采用了异步强化学习(Asynchronous RL)、双侧重要性采样(Double-Sided Importance Sampling)等技术,大幅提升了长程任务能力。
  • 开源与部署:模型采用 MIT 协议 开源,支持国产芯片全栈适配,提供 API 接入及本地部署方案。
  • 市场定价:GLM-5.1 在 Coding 场景的缓存命中 Token 价格接近 Anthropic 旗下 Claude Sonnet 4.6 水平,实现了与国际顶尖厂商的价格对齐。

4. 行业影响

GLM-5.1 的发布标志着国产大模型竞争焦点从“低价竞争”转向了“能力竞争”。它不仅证明了国产模型在核心编程能力上的追赶能力,还通过开源 MIT 许可证为开发者社区提供了一个强大的工具链。

结论

智谱的 GLM-5.1 通过在 SWE-Bench Pro 基准测试中取得 58.4 分 的全球最佳成绩,以及在长程任务能力上的独特突破,确立了其在国产及开源模型中的领跑地位。这不仅是一次技术迭代,更是国产大模型走向国际化竞争舞台的重要里程碑。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!