什么是DanceGRPO

DanceGRPO 简介

DanceGRPO（Distributed advanced neural control engine for Group Relative Policy Optimization）是由 字节跳动 Seed 团队 与 香港大学 MMLab 联合研发的首个 统一视觉生成强化学习框架。它把 GRPO（Group Relative Policy Optimization）‍ 引入视觉生成领域，实现了同一套强化学习算法在多种生成范式、任务、基础模型和奖励模型之间的 无缝适配。

1. 研发背景与目标

背景：随着扩散模型、Rectified Flow 等生成技术的快速发展，传统的 RLHF（基于人类反馈的强化学习）在显存占用大、训练不稳定、难以跨模型迁移等方面存在局限。
目标：构建一个 统一、可扩展、显存友好 的 RL 框架，使得同一策略能够在 图像、视频、图文对齐等多任务 中直接使用，并显著提升生成质量与多样性。

2. 核心技术

维度	内容
生成范式	Diffusion（扩散） & Rectified Flow（校正流）
任务	Text‑to‑Image、Text‑to‑Video、Image‑to‑Video 等三大任务
基础模型	Stable Diffusion、Hunyuan Video、FLUX、SkyReels‑I2V 四种主流模型
奖励模型	图像/视频美学、文本‑图像对齐、视频运动质量、二元奖励等五类
算法核心	GRPO 通过群体相对策略优化，在每一步对生成轨迹进行奖励评估，兼容 ODE‑based 采样，避免 KL 正则化带来的不稳定

3. 主要优势

统一性：单一 RL 代码即可在不同模型、不同任务间切换，无需为每种组合单独实现 RL。
显存效率：相较于传统 RLHF，DanceGRPO 通过稀疏奖励与 EMA（指数移动平均）等技巧显著降低显存占用。
质量提升：在 HPS‑v2.1、CLIP‑Score、VideoAlign、GenEval 等指标上，最高提升 181%，生成的图像/视频在美感与语义一致性上均有明显改善。
可迁移：同一策略可直接迁移到 Rectified Flow 与 视频生成 模型，支持大规模 Prompt 数据集训练。

4. 实践与开源资源

资源类型	链接	说明
代码仓库	https://github.com/XueZeyue/DanceGRPO	官方 GitHub，提供训练脚本、检查点、使用文档
项目博客（CSDN）‍	https://blog.csdn.net/gitblog_00002/article/details/148269732	详细技术解析与使用指南
技术介绍页面	https://ai-bot.cn/dancegrpo/	对框架原理、实验结果的系统化阐述
学术论文	https://arxiv.org/pdf/2509.16679.pdf （章节提及）	论文中对 DanceGRPO 的定位与实验对比
媒体报道	https://www.sohu.com/a/895149913_121924584	业界视角的技术报告，概述创新点与市场前景

5. 应用场景

高质量图像生成：艺术创作、广告素材、游戏角色设计等。
文本到视频：短视频平台、教育培训、营销宣传的自动化内容生产。
图像到视频：将静态概念图转化为动态演示，提升交互体验。
多模态对齐：在跨模态检索、内容审核等需要文本‑视觉一致性的业务中提供更精准的对齐奖励。

总结
DanceGRPO 通过将 GRPO 融入视觉生成的强化学习流程，实现了 跨模型、跨任务、跨奖励 的统一训练框架。它在提升生成质量、降低显存需求以及促进技术迁移方面表现突出，已在多个公开实验中取得显著优势，并以 开源代码、技术博客、学术论文 等形式向社区开放，成为 2025 年视觉生成领域的重要里程碑。