DeepSeek-V3.2 正式发布：引入创新稀疏注意力架构

AI资讯 1天前硕雀

3 0 0

DeepSeek‑V3.2 正式发布概览
DeepSeek 于 2025‑12‑01 正式推出 V3.2 版本，定位为在 推理效率、成本与智能能力 三者之间实现平衡的下一代大语言模型。相较于前代 V3.1‑Terminus，V3.2 的唯一结构性突破是 DeepSeek Sparse Attention（DSA）‍ 稀疏注意力机制，使模型在处理超长上下文（最高 128K）时计算量大幅下降，同时保持或略微提升原有的语言理解与生成性能。

1. 架构核心：DeepSeek Sparse Attention（DSA）

组成部分	作用	关键技术点
Lightning Indexer（闪电索引器）	为每个查询 token 计算与前置 token 的索引得分，决定哪些 token 被保留	采用多头（）结构，使用 ReLU 激活，支持 FP8 精度，计算复杂度极低
Fine‑grained Token Selection（细粒度标记选择）	根据索引得分取前 k 大的键值对，形成稀疏注意力集合	只对 Top‑k 进行标准注意力计算，整体复杂度从降至，其中
MLA / MQA 兼容实现	将 DSA 融入 DeepSeek 采用的 Multi‑Query Attention（MQA）‍ 框架，保证键值在多个查询头之间共享，提高硬件利用率	基于 MLA（Multi‑Query Layer Attention）‍ 的实现，键值共享机制在 FPGA/ASIC 上可高效并行

计算优势：在 128K 长文本上，DSA 推理速度提升约 2‑3 倍，显存占用下降 30%‑40%，并且在公开基准（如 MMLU、GSM‑8K）上几乎不出现性能回退。

2. 训练与模型规模

项目	说明
基准模型	以 DeepSeek‑V3.1‑Terminus（上下文 128K）为检查点进行持续预训练与后训练
预训练阶段	两阶段训练，数据分布与 V3.1‑Terminus 的 128K 长上下文扩展数据保持一致，确保稀疏注意力在真实长文本上得到充分学习
参数规模	与 V3.1‑Terminus 基本持平（约 70B 参数），但因稀疏注意力的计算削减，实际训练算力需求下降约 20%‑30%
精度支持	支持 FP8 与 FP16 双精度模式，兼容主流国产算力（寒武纪、昇腾）以及 GPU/TPU 平台

3. 性能与成本表现

评测	结果
语言基准（MMLU、GSM‑8K、HumanEval）	与 V3.1‑Terminus 基本持平，Speciale 版在数学/编程任务上略有提升，接近 Gemini‑3.0 Pro 与 GPT‑5 High
推理速度	长文本（>64K）下 2‑3× 加速，显存占用下降 30%‑40%
API 费用	由于算力成本下降，官方 API 价格整体降超 50%（如 1M tokens 输入从 0.5 元降至 0.2 元）
硬件适配	已在寒武纪、昇腾、TPU 上实现专用算子（TileLang + CUDA / Triton），实现业界领先的推理效率

4. 新增功能与生态影响

工具调用（Tool‑Calling）‍：V3.2 正式版加入原生工具调用能力，支持代码执行、网络检索、数据库查询等多模态任务。
Agent 能力：通过 虚拟演练场（Virtual Playground）进行大规模 Agent 任务合成训练，提升多轮对话与任务规划的鲁棒性。
开源生态：模型、DSA 实现代码、算子库均已在 HuggingFace、ModelScope 开源，便于社区二次开发与国产算力适配。
产业闭环：DSA 的算力节省直接推动国产 AI 硬件（如 MLU、昇腾）与软件栈的协同升级，加速国产 AI 软硬件生态闭环。

5. 结论

DeepSeek‑V3.2 通过 DSA 稀疏注意力 实现了 长文本高效处理、算力成本大幅下降 与 功能增强（工具调用、Agent 能力）‍ 的三位一体。它不仅在学术层面提供了细粒度稀疏注意力的实现范例，也在产业层面推动了国产算力平台的快速适配，为大模型的可持续发展提供了新的技术路径。

DeepSeek‑V3.2

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！