什么是NTU‑RGBD数据集

NTU‑RGBD 数据集概述
NTU‑RGBD(全称 NTU RGB+D: A Large‑Scale Dataset for 3D Human Activity Analysis)是由新加坡南洋理工大学(NTU)在 2016 年提出的多模态人体动作识别基准。它是目前最常用的大规模 RGB‑D 动作识别数据集之一,提供了丰富的视觉与姿态信息,广泛用于骨架动作识别、跨视角/跨受试者评估以及多模态融合研究。


1. 数据规模与类别

版本 动作类别 样本数量 受试者人数 采集视角
NTU‑RGBD‑60(原始) 60(日常动作 40、健康相关 9、交互动作 11) 56 880 条视频 40 名受试者 3 台 Kinect V2(-45°、0°、+45°)
NTU‑RGBD‑120(扩展) 120(在 60 基础上增加 60 类细粒度动作) 114 480 条视频 同上 同上
NTU‑X(细粒度) 120+(加入手指、面部关键点) 约 120 k 条 同上 同上

每条样本同时提供 RGB 视频、深度序列、红外帧、3D 骨架坐标 四种模态,骨架数据每帧包含 25 个关节的 3D 坐标。


2. 采集与存储细节

  • 硬件:Microsoft Kinect v2(RGB 分辨率 1920×1080,深度/红外 512×424)。
  • 文件命名规则SsssCcccPpppRrrrAaaa,分别表示设置号、相机号、表演者号、复制号和动作类别。
  • 数据格式:RGB、深度、红外均为视频帧序列;骨架数据以 .skeleton 或 CSV 形式存储,每帧 25 条关节坐标。

3. 常用评估划分

  1. Cross‑Subject (X‑Sub)训练集使用 20 名受试者(40 320 条),测试集使用其余 20 名(16 560 条)。
  2. Cross‑View (X‑View):训练集使用来自第 2、3 台摄像机的 37 920 条,测试集使用第 1 台摄像机的 18 960 条。
    这两套划分分别考察模型对 受试者外观变化 与 视角变化 的泛化能力

4. 获取方式与重要链接

内容 链接 说明
官方数据集主页(下载入口) https://rose1.ntu.edu.sg/dataset/actionRecognition/ 包含 NTU‑RGBD‑60、NTU‑RGBD‑120 全部模态文件
GitHub 代码仓库(数据处理、基线实现) https://github.com/shahroudy/NTURGB-D 提供数据读取脚本、示例代码
Papers with Code 页面 https://paperswithcode.com/dataset/ntu-rgb-d 汇总论文、基准成绩、实现代码
公开骨架坐标数据(CSV) https://figshare.com/articles/dataset/NTU_RGB_D_60_120_skeleton_with_coordinates_dataset/27427188 直接下载已归一化的骨架坐标文件
NTU‑X 数据集说明 https://doi.org/10.1145/3490035.3490270 (论文) 细粒度手部/面部关键点扩展

下载提示:数据集体积较大(约 100 GB),建议使用校园网或高速下载工具;骨架坐标 CSV 版仅几百 MB,适合快速实验。


5. 研究应用与常见基线

  • 骨架动作识别ST‑GCN、2s‑AGCN、AS‑GCN、DGNN 等均在 NTU‑RGBD 上报告了 80%‑90% 的准确率
  • 多模态融合:RGB + Depth、RGB + Skeleton、RGB + Infrared 等组合提升了跨视角鲁棒性
  • 跨任务迁移:利用 NTU‑RGBD 预训练的特征可迁移到 Kinetics‑Skeleton、NW‑UCLA 等小规模数据集。

6. 小结

NTU‑RGBD 系列数据集因其 大规模、多模态、标准化评估划分 的特性,已成为 3D 人体动作识别领域的“黄金标准”。研究者可以通过官方主页或公开的 GitHub、Figshare 链接获取完整数据和基线代码,随后依据 X‑Sub / X‑View 两种划分进行实验,或使用 NTU‑RGBD‑120、NTU‑X 等扩展版本探索更细粒度的动作识别任务。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!