智谱开源 GLM‑4.6V 系列大模型概览
1. 系列定位与发布时间
- 发布时间:2025 年 12 月 8 日正式上线并开源。
- 版本划分:提供两款模型,满足不同部署需求
2. 核心技术特性
| 特性 | 说明 | 参考 |
|---|---|---|
| 模型架构 | MoE(Mixture‑of‑Experts)结构,激活参数仅 12 B,兼顾算力与效果。 | |
| 多模态能力 | 同时支持图像、视频、文档等多模态输入,具备视觉问答、视觉推理、空间定位、图表识别等 34 项能力。 | |
| 上下文长度 | 支持 128 k token 超长上下文,能够一次性处理大规模文本与多帧视频。 | |
| 工具调用 | 原生支持基于视觉输入的工具调用,可实现感知‑理解‑执行闭环(如检索商品图片后再进行推荐)。 | |
| 代码能力 | 在代码生成与 Agentic Coding 场景中对齐 Claude Sonnet 4,成为国内已知最强的 Coding 模型之一(GLM‑4.6 系列整体提升 27%)。 | |
| 硬件适配 | 支持 FP8+Int4 混合量化,可在国产寒武纪芯片及 vLLM 框架上高效运行。 |
3. 性能表现(基准评测)
- 多模态基准:在 MMBench、MathVista、OCRBench 等 30+ 主流多模态评测中取得同级别 SOTA,整体分数超过 Qwen3‑VL‑8B,106 B 版的表现接近 2 倍参数量的 Qwen3‑VL‑235B。
- 视觉推理:在 34 项视觉任务中,9 B 版有 22 项分数超越 Qwen3‑VL‑8B;106 B 版在复杂视觉推理与长文本理解上与业界顶尖闭源模型持平。
4. 开源与生态
- 代码仓库:已同步至 GitHub、Hugging Face 与 ModelScope,遵循 MIT 许可证,社区可自由下载、二次开发。
- API 定价:相较前代降价 50%,输入 1 元/百万 tokens,输出 3 元/百万 tokens;Flash 版免费供用户调用。
5. 典型应用场景
| 场景 | 说明 |
|---|---|
| 企业级视觉检测 | 产品缺陷检测、质量控制,利用长上下文与工具调用实现批量分析。 |
| 智能相册管理 | 自动分类、人物识别、场景标签,支持跨设备同步。 |
| 网页复刻与比价 | 通过视觉检索获取商品图片后,结合语言模型完成价格比较与推荐。 |
| 本地隐私部署 | 9 B Flash 版可在企业内部服务器上离线运行,满足数据合规需求。 |
| 智能体与 Agent | 与 GLM‑4.6 系列的思考模式(Thinking)结合,实现复杂任务规划与执行。 |
6. 未来展望
- 持续迭代:智谱已表明将继续在多模态感知、长上下文、工具调用等方向深化模型能力。
- 生态合作:通过与阿里云 PAI、华为昇腾等平台深度集成,降低企业使用门槛。
总结
GLM‑4.6V 系列是智谱在多模态大模型领域的最新旗舰,凭借 MoE 架构、128 k 超长上下文、强大的视觉推理与工具调用能力,在国内外基准测试中实现了领先水平。两款版本分别满足高性能云端与轻量本地部署需求,且已全面开源、价格友好,为企业与研发者提供了强大的 AI 基础设施。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!