X‑Dance 是在《SteadyDancer: Harmonized and Coherent Human Image Animation with First‑Frame Preservation》论文中提出的一个专门用于评估 单帧图像驱动的人体动画(image‑to‑video animation)算法的基准。它的设计目标是填补现有同源(same‑source)基准(如 TikTok)在 时空对齐、运动模糊、遮挡等挑战 上的不足,帮助研究者更客观地衡量模型在复杂动态场景下的表现。
| 关键特性 | 说明 |
|---|---|
| 来源图像多样性 | 包含男性、女性、卡通人物等多种角色;同时提供上半身与全身两类视角的源图像。 |
| 驱动视频 | 选取了动作幅度大、运动模糊、遮挡严重的高动态舞蹈视频,确保评测时对时空一致性提出严格要求。 |
| 挑战点 | - 时空错位(spatio‑temporal misalignment) - 运动模糊(motion blur) - 遮挡(occlusion) - 多样姿态(upper / full‑body) |
| 使用场景 | 评估人像动画、姿态迁移、视频合成等任务;已在 SteadyDancer、其他图像‑to‑video 生成模型中作为标准测试集。 |
| 公开获取 | 数据集及其说明均托管在 GitHub 与 Hugging Face 上,研究者可自由下载使用。 |
主要资源链接
- GitHub 项目(SteadyDancer)
<https://github.com/MCG-NJU/SteadyDancer >
项目页面中详细介绍了 X‑Dance 基准的构建方式、数据组织结构以及评测协议。 - Hugging Face 数据集页面
<https://huggingface.co/datasets/MCG-NJU/X-Dance >
提供了数据集的直接下载链接、示例代码以及使用说明。 - 论文(arXiv)
《SteadyDancer: Harmonized and Coherent Human Image Animation with First‑Frame Preservation》
arXiv 链接:<https://arxiv.org/abs/2401.01234 >(示例链接,实际可在 arXiv 搜索标题获取最新版本)。论文中对 X‑Dance 的设计动机、数据筛选标准以及实验评测结果作了系统阐述。
数据规模(截至 2025‑12‑06)
- 源图像:数十张不同角色的高质量单帧图像(具体数量随项目更新而变化)。
- 驱动视频:数十段高动态舞蹈片段,覆盖复杂动作、快速运动与遮挡场景。
- 总时长:约数百分钟的动画素材,足以支撑大规模训练与细粒度评测。
使用建议:在进行图像‑to‑video 生成实验时,建议同时报告在 X‑Dance 基准上的 时空对齐误差(e.g., SSIM、LPIPS) 与 运动一致性指标(e.g., FVD),以便与已有工作进行公平对比。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!