什么是NTU‑RGBD数据集

AI解读 2个月前硕雀

48 0 0

NTU‑RGBD 数据集概述
NTU‑RGBD（全称 NTU RGB+D: A Large‑Scale Dataset for 3D Human Activity Analysis）是由新加坡南洋理工大学（NTU）在 2016 年提出的多模态人体动作识别基准。它是目前最常用的大规模 RGB‑D 动作识别数据集之一，提供了丰富的视觉与姿态信息，广泛用于骨架动作识别、跨视角/跨受试者评估以及多模态融合研究。

1. 数据规模与类别

版本	动作类别	样本数量	受试者人数	采集视角
NTU‑RGBD‑60（原始）	60（日常动作 40、健康相关 9、交互动作 11）	56 880 条视频	40 名受试者	3 台 Kinect V2（-45°、0°、+45°）
NTU‑RGBD‑120（扩展）	120（在 60 基础上增加 60 类细粒度动作）	114 480 条视频	同上	同上
NTU‑X（细粒度）	120+（加入手指、面部关键点）	约 120 k 条	同上	同上

每条样本同时提供 RGB 视频、深度序列、红外帧、3D 骨架坐标 四种模态，骨架数据每帧包含 25 个关节的 3D 坐标。

2. 采集与存储细节

硬件：Microsoft Kinect v2（RGB 分辨率 1920×1080，深度/红外 512×424）。
文件命名规则：SsssCcccPpppRrrrAaaa，分别表示设置号、相机号、表演者号、复制号和动作类别。
数据格式：RGB、深度、红外均为视频帧序列；骨架数据以 .skeleton 或 CSV 形式存储，每帧 25 条关节坐标。

3. 常用评估划分

Cross‑Subject (X‑Sub)：训练集使用 20 名受试者（40 320 条），测试集使用其余 20 名（16 560 条）。
Cross‑View (X‑View)：训练集使用来自第 2、3 台摄像机的 37 920 条，测试集使用第 1 台摄像机的 18 960 条。
这两套划分分别考察模型对 受试者外观变化 与 视角变化 的泛化能力。

4. 获取方式与重要链接

内容	链接	说明
官方数据集主页（下载入口）	https://rose1.ntu.edu.sg/dataset/actionRecognition/	包含 NTU‑RGBD‑60、NTU‑RGBD‑120 全部模态文件
GitHub 代码仓库（数据处理、基线实现）	https://github.com/shahroudy/NTURGB-D	提供数据读取脚本、示例代码
Papers with Code 页面	https://paperswithcode.com/dataset/ntu-rgb-d	汇总论文、基准成绩、实现代码
公开骨架坐标数据（CSV）	https://figshare.com/articles/dataset/NTU_RGB_D_60_120_skeleton_with_coordinates_dataset/27427188	直接下载已归一化的骨架坐标文件
NTU‑X 数据集说明	https://doi.org/10.1145/3490035.3490270 （论文）	细粒度手部/面部关键点扩展

下载提示：数据集体积较大（约 100 GB），建议使用校园网或高速下载工具；骨架坐标 CSV 版仅几百 MB，适合快速实验。

5. 研究应用与常见基线

骨架动作识别：ST‑GCN、2s‑AGCN、AS‑GCN、DGNN 等均在 NTU‑RGBD 上报告了 80%‑90% 的准确率。
多模态融合：RGB + Depth、RGB + Skeleton、RGB + Infrared 等组合提升了跨视角鲁棒性。
跨任务迁移：利用 NTU‑RGBD 预训练的特征可迁移到 Kinetics‑Skeleton、NW‑UCLA 等小规模数据集。

6. 小结

NTU‑RGBD 系列数据集因其 大规模、多模态、标准化评估划分 的特性，已成为 3D 人体动作识别领域的“黄金标准”。研究者可以通过官方主页或公开的 GitHub、Figshare 链接获取完整数据和基线代码，随后依据 X‑Sub / X‑View 两种划分进行实验，或使用 NTU‑RGBD‑120、NTU‑X 等扩展版本探索更细粒度的动作识别任务。

NTU‑RGBD NTU‑RGBD数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！