NextStep‑1 模型概览
NextStep‑1 是 2025 年由 StepFun(阶跃星辰)团队发布的大规模自回归图像生成模型。它把 文本‑图像生成 与 图像编辑 统一在同一个自回归框架中,核心思想是直接在 连续视觉 token 上进行逐块预测,摆脱了传统扩散模型对离散量化的依赖,从而在细节保留和生成一致性上取得显著提升。
1. 基本架构
| 组成部分 | 说明 |
|---|---|
| Transformer 主干 | 约 140 B 参数的因果 Transformer,用于同时处理离散文本 token 与连续图像 token 的自回归预测 |
| Flow‑Matching Head | 轻量级(≈1.57 B 参数)流匹配头,负责将 Transformer 输出的隐藏状态映射为连续图像块的噪声流,实现“下一个 token”预测 |
| 图像 Tokenizer | 基于 VAE(Flux.1‑dev)微调的连续视觉 tokenizer,将图像切分为若干 Patch 并编码为高维连续向量 |
| 统一序列 | 文本 token 与图像 token 按时间顺序拼接,模型一次性预测整个序列,实现文本‑图像联合建模 |
核心创新:不再使用离散的 VQ‑VAE 码本,而是直接在连续潜空间上进行自回归生成,既保留了高频细节,又避免了量化误差。
2. 训练流程
- 预训练阶段(三阶段课程)
- Stage 1:基础学习,使用 256×256 分辨率的图像,文本‑图像配比 20%/60%/20%(纯文本 / 图文配对 / 交错数据)
- Stage 2:扩大分辨率与数据规模,加入指令驱动的图像‑图像对。
- Annealing:逐步降低学习率,提升生成稳定性。
- 后训练阶段
- SFT(Supervised Fine‑Tuning):在高质量指令数据上微调,提升对复杂提示的响应能力。
- DPO(Direct Preference Optimization):利用 ImageReward 打分的偏好对,进一步对齐人类审美。
训练总计约 50 K 步,批次大小 512,学习率 1e‑5(预训练)和 2e‑6(DPO),使用 AdamW 优化器。
3. 主要能力
| 能力 | 说明 |
|---|---|
| 文本到图像 | 在 WISE、GenAI‑Bench、DPG‑Bench 等基准上取得 SOTA 结果,尤其在世界知识理解和高保真合成方面表现突出 |
| 图像编辑 | NextStep‑1‑Edit 版本通过指令微调,在 GEdit‑Bench、ImgEdit‑Bench 上实现竞争力成绩,支持局部修改、风格迁移等任务 |
| 多模态统一 | 同一模型同时处理文本、图像、交错数据,实现“一体化”多模态生成,简化了模型部署与推理流程 |
| 高效推理 | 采用流匹配头的轻量采样器,使得每块图像的生成仅需少量采样步骤,整体推理延迟相较传统自回归模型有显著下降 |
4. 开源与使用
- 代码仓库:<https://github.com/stepfun-ai/NextStep-1 >(Apache 2.0 许可证)
- 模型权重:已在 HuggingFace Hub 上公开,可直接通过
transformers或diffusers加载。 - 文档与示例:官方平台提供完整的训练、推理、微调指南,包含 Python 示例代码和 API 文档
5. 研究价值与未来方向
- 连续 token 生成 为图像生成提供了新的范式,可能进一步推广到视频、3D 场景等高维数据。
- 流匹配头的规模不敏感(小/中/大三种配置在实验中表现相近)表明 Transformer 主干是生成核心,后续可探索更轻量的采样器以提升推理速度。
- 高分辨率生成 仍是挑战,当前模型在 256×256 基础上通过块级拼接实现更高分辨率,未来需要更高效的块级并行或层次化生成策略。
6. 推荐阅读链接
| 资源 | 链接 |
|---|---|
| 官方 GitHub 仓库(代码、模型) | https://github.com/stepfun-ai/NextStep-1 |
| 论文/技术报告(arXiv) | https://arxiv.org/abs/2508.10711 |
| 官方文档与模型下载 | https://platform.stepfun.com/docs/llm/vision |
| 媒体报道(CSDN) | https://blog.csdn.net/m0_66899341/article/details/150447701 |
| 详细技术博客(新浪) | https://t.cj.sina.com.cn/articles/view/3996876140/ee3b7d6c001015gvw |
总结
NextStep‑1 通过“连续视觉 token + 自回归预测” 的创新组合,实现了高质量、统一的文本‑图像生成与编辑能力。其开源、可复现的特性为学术研究与工业落地提供了重要的基石,也为后续大模型在多模态生成领域的探索指明了方向。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!