智谱开源 GLM-4.6V 系列大模型

AI资讯 15小时前硕雀

2 0 0

智谱开源 GLM‑4.6V 系列大模型概览

1. 系列定位与发布时间

发布时间：2025 年 12 月 8 日正式上线并开源。
版本划分：提供两款模型，满足不同部署需求
- GLM‑4.6V（基础版）‍：总参数 106 B，激活参数约 12 B，采用 MoE（混合专家）架构，适合云端高性能集群的深度推理与长文档处理。
- GLM‑4.6V‑Flash（轻量版）‍：9 B 参数，面向本地部署与低延迟场景，免费供用户使用。

2. 核心技术特性

特性	说明	参考
模型架构	MoE（Mixture‑of‑Experts）结构，激活参数仅 12 B，兼顾算力与效果。
多模态能力	同时支持图像、视频、文档等多模态输入，具备视觉问答、视觉推理、空间定位、图表识别等 34 项能力。
上下文长度	支持 128 k token 超长上下文，能够一次性处理大规模文本与多帧视频。
工具调用	原生支持基于视觉输入的工具调用，可实现感知‑理解‑执行闭环（如检索商品图片后再进行推荐）。
代码能力	在代码生成与 Agentic Coding 场景中对齐 Claude Sonnet 4，成为国内已知最强的 Coding 模型之一（GLM‑4.6 系列整体提升 27%）。
硬件适配	支持 FP8+Int4 混合量化，可在国产寒武纪芯片及 vLLM 框架上高效运行。

3. 性能表现（基准评测）

多模态基准：在 MMBench、MathVista、OCRBench 等 30+ 主流多模态评测中取得同级别 SOTA，整体分数超过 Qwen3‑VL‑8B，106 B 版的表现接近 2 倍参数量的 Qwen3‑VL‑235B。
视觉推理：在 34 项视觉任务中，9 B 版有 22 项分数超越 Qwen3‑VL‑8B；106 B 版在复杂视觉推理与长文本理解上与业界顶尖闭源模型持平。

4. 开源与生态

代码仓库：已同步至 GitHub、Hugging Face 与 ModelScope，遵循 MIT 许可证，社区可自由下载、二次开发。
API 定价：相较前代降价 50%，输入 1 元/百万 tokens，输出 3 元/百万 tokens；Flash 版免费供用户调用。

5. 典型应用场景

场景	说明
企业级视觉检测	产品缺陷检测、质量控制，利用长上下文与工具调用实现批量分析。
智能相册管理	自动分类、人物识别、场景标签，支持跨设备同步。
网页复刻与比价	通过视觉检索获取商品图片后，结合语言模型完成价格比较与推荐。
本地隐私部署	9 B Flash 版可在企业内部服务器上离线运行，满足数据合规需求。
智能体与 Agent	与 GLM‑4.6 系列的思考模式（Thinking）结合，实现复杂任务规划与执行。

6. 未来展望

持续迭代：智谱已表明将继续在多模态感知、长上下文、工具调用等方向深化模型能力。
生态合作：通过与阿里云 PAI、华为昇腾等平台深度集成，降低企业使用门槛。

总结
GLM‑4.6V 系列是智谱在多模态大模型领域的最新旗舰，凭借 MoE 架构、128 k 超长上下文、强大的视觉推理与工具调用能力，在国内外基准测试中实现了领先水平。两款版本分别满足高性能云端与轻量本地部署需求，且已全面开源、价格友好，为企业与研发者提供了强大的 AI 基础设施。

GLM‑4.6V

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！