NTU‑RGBD 数据集概述
NTU‑RGBD(全称 NTU RGB+D: A Large‑Scale Dataset for 3D Human Activity Analysis)是由新加坡南洋理工大学(NTU)在 2016 年提出的多模态人体动作识别基准。它是目前最常用的大规模 RGB‑D 动作识别数据集之一,提供了丰富的视觉与姿态信息,广泛用于骨架动作识别、跨视角/跨受试者评估以及多模态融合研究。
1. 数据规模与类别
版本 | 动作类别 | 样本数量 | 受试者人数 | 采集视角 |
---|---|---|---|---|
NTU‑RGBD‑60(原始) | 60(日常动作 40、健康相关 9、交互动作 11) | 56 880 条视频 | 40 名受试者 | 3 台 Kinect V2(-45°、0°、+45°) |
NTU‑RGBD‑120(扩展) | 120(在 60 基础上增加 60 类细粒度动作) | 114 480 条视频 | 同上 | 同上 |
NTU‑X(细粒度) | 120+(加入手指、面部关键点) | 约 120 k 条 | 同上 | 同上 |
每条样本同时提供 RGB 视频、深度序列、红外帧、3D 骨架坐标 四种模态,骨架数据每帧包含 25 个关节的 3D 坐标。
2. 采集与存储细节
- 硬件:Microsoft Kinect v2(RGB 分辨率 1920×1080,深度/红外 512×424)。
- 文件命名规则:
SsssCcccPpppRrrrAaaa
,分别表示设置号、相机号、表演者号、复制号和动作类别。 - 数据格式:RGB、深度、红外均为视频帧序列;骨架数据以
.skeleton
或 CSV 形式存储,每帧 25 条关节坐标。
3. 常用评估划分
- Cross‑Subject (X‑Sub):训练集使用 20 名受试者(40 320 条),测试集使用其余 20 名(16 560 条)。
- Cross‑View (X‑View):训练集使用来自第 2、3 台摄像机的 37 920 条,测试集使用第 1 台摄像机的 18 960 条。
这两套划分分别考察模型对 受试者外观变化 与 视角变化 的泛化能力。
4. 获取方式与重要链接
内容 | 链接 | 说明 |
---|---|---|
官方数据集主页(下载入口) | https://rose1.ntu.edu.sg/dataset/actionRecognition/ | 包含 NTU‑RGBD‑60、NTU‑RGBD‑120 全部模态文件 |
GitHub 代码仓库(数据处理、基线实现) | https://github.com/shahroudy/NTURGB-D | 提供数据读取脚本、示例代码 |
Papers with Code 页面 | https://paperswithcode.com/dataset/ntu-rgb-d | 汇总论文、基准成绩、实现代码 |
公开骨架坐标数据(CSV) | https://figshare.com/articles/dataset/NTU_RGB_D_60_120_skeleton_with_coordinates_dataset/27427188 | 直接下载已归一化的骨架坐标文件 |
NTU‑X 数据集说明 | https://doi.org/10.1145/3490035.3490270 (论文) | 细粒度手部/面部关键点扩展 |
下载提示:数据集体积较大(约 100 GB),建议使用校园网或高速下载工具;骨架坐标 CSV 版仅几百 MB,适合快速实验。
5. 研究应用与常见基线
- 骨架动作识别:ST‑GCN、2s‑AGCN、AS‑GCN、DGNN 等均在 NTU‑RGBD 上报告了 80%‑90% 的准确率。
- 多模态融合:RGB + Depth、RGB + Skeleton、RGB + Infrared 等组合提升了跨视角鲁棒性。
- 跨任务迁移:利用 NTU‑RGBD 预训练的特征可迁移到 Kinetics‑Skeleton、NW‑UCLA 等小规模数据集。
6. 小结
NTU‑RGBD 系列数据集因其 大规模、多模态、标准化评估划分 的特性,已成为 3D 人体动作识别领域的“黄金标准”。研究者可以通过官方主页或公开的 GitHub、Figshare 链接获取完整数据和基线代码,随后依据 X‑Sub / X‑View 两种划分进行实验,或使用 NTU‑RGBD‑120、NTU‑X 等扩展版本探索更细粒度的动作识别任务。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!