什么是NextStep‑1模型

AI解读 3小时前 硕雀
5 0

NextStep‑1 模型概览

NextStep‑1 是 2025 年由 StepFun(阶跃星辰)团队发布的大规模自回归图像生成模型。它把 文本‑图像生成 与 图像编辑 统一在同一个自回归框架中,核心思想是直接在 连续视觉 token 上进行逐块预测,摆脱了传统扩散模型对离散量化的依赖,从而在细节保留和生成一致性上取得显著提升。


1. 基本架构

组成部分 说明
Transformer 主干 约 140 B 参数的因果 Transformer,用于同时处理离散文本 token 与连续图像 token 的自回归预测
Flow‑Matching Head 轻量级(≈1.57 B 参数)流匹配头,负责将 Transformer 输出的隐藏状态映射为连续图像块的噪声流,实现“下一个 token”预测
图像 Tokenizer 基于 VAE(Flux.1‑dev)微调的连续视觉 tokenizer,将图像切分为若干 Patch 并编码为高维连续向量
统一序列 文本 token 与图像 token 按时间顺序拼接,模型一次性预测整个序列,实现文本‑图像联合建模

核心创新:不再使用离散的 VQ‑VAE 码本,而是直接在连续潜空间上进行自回归生成,既保留了高频细节,又避免了量化误差。


2. 训练流程

  1. 预训练阶段(三阶段课程)
    • Stage 1:基础学习,使用 256×256 分辨率的图像,文本‑图像配比 20%/60%/20%(纯文本 / 图文配对 / 交错数据)
    • Stage 2:扩大分辨率与数据规模,加入指令驱动的图像‑图像对。
    • Annealing:逐步降低学习率,提升生成稳定性。
  2. 后训练阶段
    • SFT(Supervised Fine‑Tuning)‍:在高质量指令数据上微调,提升对复杂提示的响应能力。
    • DPO(Direct Preference Optimization‍:利用 ImageReward 打分的偏好对,进一步对齐人类审美。

训练总计约 50 K 步,批次大小 512,学习率 1e‑5(预训练)和 2e‑6(DPO),使用 AdamW 优化器。


3. 主要能力

能力 说明
文本到图像 在 WISE、GenAI‑BenchDPG‑Bench 等基准上取得 SOTA 结果,尤其在世界知识理解和高保真合成方面表现突出
图像编辑 NextStep‑1‑Edit 版本通过指令微调,在 GEdit‑Bench、ImgEdit‑Bench 上实现竞争力成绩,支持局部修改、风格迁移等任务
多模态统一 同一模型同时处理文本、图像、交错数据,实现“一体化”多模态生成,简化了模型部署与推理流程
高效推理 采用流匹配头的轻量采样器,使得每块图像的生成仅需少量采样步骤,整体推理延迟相较传统自回归模型有显著下降

4. 开源与使用

  • 代码仓库:<https://github.com/stepfun-ai/NextStep-1 >(Apache 2.0 许可证)
  • 模型权重:已在 HuggingFace Hub 上公开,可直接通过 transformers 或 diffusers 加载。
  • 文档与示例:官方平台提供完整的训练、推理、微调指南,包含 Python 示例代码和 API 文档

5. 研究价值与未来方向

  1. 连续 token 生成 为图像生成提供了新的范式,可能进一步推广到视频、3D 场景等高维数据。
  2. 流匹配头的规模不敏感(小/中/大三种配置在实验中表现相近)表明 Transformer 主干是生成核心,后续可探索更轻量的采样器以提升推理速度。
  3. 高分辨率生成 仍是挑战,当前模型在 256×256 基础上通过块级拼接实现更高分辨率,未来需要更高效的块级并行或层次化生成策略。

6. 推荐阅读链接

资源 链接
官方 GitHub 仓库(代码、模型) https://github.com/stepfun-ai/NextStep-1
论文/技术报告(arXiv) https://arxiv.org/abs/2508.10711
官方文档与模型下载 https://platform.stepfun.com/docs/llm/vision
媒体报道(CSDN https://blog.csdn.net/m0_66899341/article/details/150447701
详细技术博客(新浪) https://t.cj.sina.com.cn/articles/view/3996876140/ee3b7d6c001015gvw

总结
NextStep‑1 通过“连续视觉 token + 自回归预测” 的创新组合,实现了高质量、统一的文本‑图像生成与编辑能力。其开源、可复现的特性为学术研究与工业落地提供了重要的基石,也为后续大模型在多模态生成领域的探索指明了方向。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!