什么是NextStep‑1模型

AI解读 2个月前硕雀

47 0 0

NextStep‑1 是 2025 年由 StepFun（阶跃星辰）团队发布的大规模自回归图像生成模型。它把 文本‑图像生成 与 图像编辑 统一在同一个自回归框架中，核心思想是直接在 连续视觉 token 上进行逐块预测，摆脱了传统扩散模型对离散量化的依赖，从而在细节保留和生成一致性上取得显著提升。

1. 基本架构

组成部分	说明
Transformer 主干	约 140 B 参数的因果 Transformer，用于同时处理离散文本 token 与连续图像 token 的自回归预测
Flow‑Matching Head	轻量级（≈1.57 B 参数）流匹配头，负责将 Transformer 输出的隐藏状态映射为连续图像块的噪声流，实现“下一个 token”预测
图像 Tokenizer	基于 VAE（Flux.1‑dev）微调的连续视觉 tokenizer，将图像切分为若干 Patch 并编码为高维连续向量
统一序列	文本 token 与图像 token 按时间顺序拼接，模型一次性预测整个序列，实现文本‑图像联合建模

核心创新：不再使用离散的 VQ‑VAE 码本，而是直接在连续潜空间上进行自回归生成，既保留了高频细节，又避免了量化误差。

2. 训练流程

预训练阶段（三阶段课程）
- Stage 1：基础学习，使用 256×256 分辨率的图像，文本‑图像配比 20%/60%/20%（纯文本 / 图文配对 / 交错数据）
- Stage 2：扩大分辨率与数据规模，加入指令驱动的图像‑图像对。
- Annealing：逐步降低学习率，提升生成稳定性。
后训练阶段
- SFT（Supervised Fine‑Tuning）‍：在高质量指令数据上微调，提升对复杂提示的响应能力。
- DPO（Direct Preference Optimization）‍：利用 ImageReward 打分的偏好对，进一步对齐人类审美。

训练总计约 50 K 步，批次大小 512，学习率 1e‑5（预训练）和 2e‑6（DPO），使用 AdamW 优化器。

3. 主要能力

能力	说明
文本到图像	在 WISE、GenAI‑Bench、DPG‑Bench 等基准上取得 SOTA 结果，尤其在世界知识理解和高保真合成方面表现突出
图像编辑	NextStep‑1‑Edit 版本通过指令微调，在 GEdit‑Bench、ImgEdit‑Bench 上实现竞争力成绩，支持局部修改、风格迁移等任务
多模态统一	同一模型同时处理文本、图像、交错数据，实现“一体化”多模态生成，简化了模型部署与推理流程
高效推理	采用流匹配头的轻量采样器，使得每块图像的生成仅需少量采样步骤，整体推理延迟相较传统自回归模型有显著下降

4. 开源与使用

代码仓库：<https://github.com/stepfun-ai/NextStep-1 >（Apache 2.0 许可证）
模型权重：已在 HuggingFace Hub 上公开，可直接通过 transformers 或 diffusers 加载。
文档与示例：官方平台提供完整的训练、推理、微调指南，包含 Python 示例代码和 API 文档

5. 研究价值与未来方向

连续 token 生成 为图像生成提供了新的范式，可能进一步推广到视频、3D 场景等高维数据。
流匹配头的规模不敏感（小/中/大三种配置在实验中表现相近）表明 Transformer 主干是生成核心，后续可探索更轻量的采样器以提升推理速度。
高分辨率生成 仍是挑战，当前模型在 256×256 基础上通过块级拼接实现更高分辨率，未来需要更高效的块级并行或层次化生成策略。

6. 推荐阅读链接

资源	链接
官方 GitHub 仓库（代码、模型）	https://github.com/stepfun-ai/NextStep-1
论文/技术报告（arXiv）	https://arxiv.org/abs/2508.10711
官方文档与模型下载	https://platform.stepfun.com/docs/llm/vision
媒体报道（CSDN）	https://blog.csdn.net/m0_66899341/article/details/150447701
详细技术博客（新浪）	https://t.cj.sina.com.cn/articles/view/3996876140/ee3b7d6c001015gvw

总结
NextStep‑1 通过“连续视觉 token + 自回归预测” 的创新组合，实现了高质量、统一的文本‑图像生成与编辑能力。其开源、可复现的特性为学术研究与工业落地提供了重要的基石，也为后续大模型在多模态生成领域的探索指明了方向。

NextStep‑1 NextStep‑1模型

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！