- 定位与目标
YouTube‑VSR(也称为 VSR‑120K)是专为 视频超分辨率(Video Super‑Resolution, VSR) 任务设计的大规模基准。它提供了高质量的 原始高分辨率(HR)视频 与对应的 低分辨率(LR)降采样版本,帮助研究者训练和评估能够在空间和时间上恢复细节的模型。 - 规模与组成
- 视频数量:约 120 000 条 视频剪辑,平均长度超过 350 帧。
- 图像数量:约 180 000 张 高分辨率图像,用于联合图像‑视频超分训练。
- 分辨率要求:所有视频均为 1080p 以上,确保在 2×、4× 等放大倍率下仍保留丰富细节。
- 数据来源与采集流程
- 数据特点
- 空间‑时间多样性:涵盖自然风光、城市街景、人物活动、运动赛事等多种场景,且每段视频的运动幅度经过光流检测,确保训练时模型能够学习到真实的时序关联。
- 统一的 HR‑LR 对:每段视频均提供统一的降采样流程(常用 bicubic、Gaussian blur 等),便于不同模型直接对比。
- 兼容图像‑视频联合训练:除视频外,还提供大量高分辨率图像,支持 Image‑Video Super‑Resolution(如 FlashVSR 中的混合训练)。
- 主要应用
- 获取方式与资源链接
- 项目主页 & 代码仓库:
- GitHub → OpenImagingLab/FlashVSR(包含模型代码、数据下载脚本)
- 官方项目页面 → FlashVSR 项目页(提供数据集概览、论文 PDF、使用指南)
- 论文与预印本:
- arXiv 预印本 → 《FlashVSR: Towards Real‑Time Diffusion‑Based Streaming Video Super‑Resolution》(arXiv:2510.12747),其中详细描述了 VSR‑120K 的构建细节。
- 数据下载说明:目前数据集将在论文公开后同步发布,GitHub 中的
datasets/目录提供 下载脚本,支持一次性批量获取全部 120 k 视频与 180 k 图像。
- 项目主页 & 代码仓库:
- 使用建议
小结:YouTube‑VSR(VSR‑120K)是目前公开的、规模最大且质量最高的真实视频超分辨率基准之一。它通过严格的质量过滤和多样化的内容采集,为研究者提供了可靠的训练与评估平台,已在多篇前沿论文(如 FlashVSR)中证明其对提升实时 VSR 效能的关键作用。若您计划开展视频超分辨率或相关时序视觉任务,强烈建议直接使用该数据集进行实验。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!