阶跃星辰 Step 3.5 Flash 发布详解
发布时间:2026年2月2日
发布方:阶跃星辰(Step)官方
核心定位:面向实时 Agent 工作流场景的开源基座模型,旨在提供“更快、更强、更稳”的底层算力支持。
1. 核心技术架构与创新
Step 3.5 Flash 采用了多项前沿技术组合,以解决大模型在推理速度和算力成本上的痛点:
- 稀疏 MoE(Mixture of Experts)架构:
- 总参数量达 1960 亿,但采用稀疏激活技术,每个 token 只激活约 110 亿 参数。
- 这种“按需计算”的方式显著降低了推理成本,同时保留了大模型的丰富知识表达能力。
- MTP-3(Multi-Token Prediction)技术:
- 模型一次预测 3 个 Token,效率翻倍。
- 在单请求代码类任务中,最高推理速度可达 每秒350个 token(350 TPS),在实时应用中具有显著优势。
- 混合注意力机制(SWA + Full Attention):
- 采用 3:1 的滑动窗口与全局注意力混合架构。
- 在长文本(256K 上下文)中,只关注“重点”,显著降低计算开销,实现了高效的长文本处理能力。
2. 关键性能指标
Step 3.5 Flash 的发布旨在填补开源模型在 Agent 场景中的性能空白:
- 推理速度:单请求代码任务最高可达 350 TPS,远超传统开源模型。
- Agent 场景表现:在处理复杂、长链条任务时表现稳定,在 Agent 场景和数学任务上可媲美闭源模型。
- 端云结合:支持端云结合部署,简化本地端执行流程,满足数据隐私和算力弹性的需求。
3. 发布与生态布局
除了模型本身的技术发布,阶跃星辰也同步推进了生态建设:
- 全量上线与开源:Step 3.5 Flash 已全量上线,提供了详细的部署指南和示例代码,方便开发者快速上手。
- 芯片适配:包括华为华为昇腾、沐曦股份、壁仞科技、燧原科技、天数智芯、阿里平头哥在内的多家头部芯片厂商已完成适配,推动了“模芯生态创新联盟”的深化合作。
- 下一代展望:官方已启动 Step 4 模型的训练工作,并邀请开发者深度参与共创,形成了从 Step 1 到 Step 4 的完整技术演进路线。
4. 总结
Step 3.5 Flash 并非单纯的“参数堆砌”,而是通过稀疏激活、混合注意力和多 Token 预测等技术,实现了在保持模型智能水平的同时,大幅提升了推理效率和部署灵活性。这使其成为当前开源模型中最适合作为 Agent 底座模型(Agent搭子)的首选。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!