什么是Assembly101数据集

AI解读 2个月前硕雀

44 0 0

Assembly101 是一个面向 程序化活动（procedural activities）‍ 的大规模多视角视频数据集，专为研究人类动作理解、手部姿态估计以及错误检测等任务设计。下面从数据规模、采集方式、标注内容、常用基准任务以及获取渠道等方面进行详细介绍。

1. 数据规模与采集方式

视频数量：约 4,321 条完整视频，涵盖 101 种可拆解的玩具车辆（“take‑apart” toy vehicles）。
视角配置：同步录制 8 条静态（第三人称）视角 与 4 条头戴式（egocentric）视角，实现了首个多视角动作数据集。
参与者：多位被试在无固定指令的情况下自行完成装配/拆解，因而自然出现动作顺序、错误与纠正的多样变化。

2. 标注内容

标注层级	说明
粗粒度动作（Coarse‑grained）‍	超过 100K 条粗粒度动作段落，标记了装配过程的主要步骤。
细粒度动作（Fine‑grained）‍	超过 1M 条细粒度动作段落，提供了每个原子操作的时间戳。
3D 手部姿态	约 18M 帧的 3D 手部关键点（hand pose）标注，支持手部运动分析。
错误/纠正标签	为每段动作标记是否为 mistake（错误）或 correction（纠正），首次在大规模数据集中引入错误检测任务。

3. 常用基准任务

动作识别（Action Recognition）‍ – 预测每帧的粗/细粒度动作标签。
动作预测/提前（Action Anticipation）‍ – 在观察到部分序列后预测后续动作。
时序分割（Temporal Segmentation）‍ – 将长视频划分为连续的动作段落。
错误检测（Mistake Detection）‍ – 判断当前动作是否为错误或纠正，这在工业场景中的质量控制尤为重要。

4. 获取方式与重要链接

内容	链接	说明
官方项目主页	https://assembly-101.github.io	提供数据概览、下载说明、基准代码等。
论文（CVPR 2022）‍	https://doi.org/10.1109/CVPR52688.2022.02042	原始论文，详细描述数据采集与基准实验。
arXiv 预印本	https://arxiv.org/abs/2203.14712	免费获取全文 PDF，便于快速阅读。
数据下载入口	论文或官网中提供的 Zenodo / Google Drive 链接（需遵守使用协议）	包含原始视频、标注文件（JSON/CSV）以及 3D 手部姿态数据。

使用提示：下载后建议先检查数据结构（videos/, annotations/, hand_poses/），并使用官方提供的 PyTorch / TensorFlow 数据加载脚本进行快速预处理。

5. 研究价值与应用场景

多视角融合：可研究跨视角特征对齐、视角迁移学习等问题。
错误检测：为机器人协作、智能装配线提供真实错误样本，支持异常检测模型的训练。
手部姿态：结合 3D 手部关键点，可用于手部动作细粒度识别、虚拟现实交互等。
长时序建模：装配过程长度不一，适合评估 Transformer、Temporal Convolution 等长序列模型。

总结
Assembly101 通过 4,321 条多视角视频、超过 1M 条细粒度动作标注以及 18M 帧的 3D 手部姿态，为程序化活动理解提供了极其丰富且真实的资源。它不仅支撑传统的动作识别与分割任务，还首次引入错误检测标签，为工业机器人、智能辅助手等实际应用提供了重要基准。研究者可通过官方主页或论文提供的下载链接获取完整数据，并结合提供的基准代码快速开展实验。

Assembly101 Assembly101数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！