Assembly101 是一个面向 程序化活动(procedural activities) 的大规模多视角视频数据集,专为研究人类动作理解、手部姿态估计以及错误检测等任务设计。下面从数据规模、采集方式、标注内容、常用基准任务以及获取渠道等方面进行详细介绍。
1. 数据规模与采集方式
- 视频数量:约 4,321 条完整视频,涵盖 101 种可拆解的玩具车辆(“take‑apart” toy vehicles)。
- 视角配置:同步录制 8 条静态(第三人称)视角 与 4 条头戴式(egocentric)视角,实现了首个多视角动作数据集。
- 参与者:多位被试在无固定指令的情况下自行完成装配/拆解,因而自然出现动作顺序、错误与纠正的多样变化。
2. 标注内容
标注层级 | 说明 |
---|---|
粗粒度动作(Coarse‑grained) | 超过 100K 条粗粒度动作段落,标记了装配过程的主要步骤。 |
细粒度动作(Fine‑grained) | 超过 1M 条细粒度动作段落,提供了每个原子操作的时间戳。 |
3D 手部姿态 | 约 18M 帧的 3D 手部关键点(hand pose)标注,支持手部运动分析。 |
错误/纠正标签 | 为每段动作标记是否为 mistake(错误)或 correction(纠正),首次在大规模数据集中引入错误检测任务。 |
3. 常用基准任务
- 动作识别(Action Recognition) – 预测每帧的粗/细粒度动作标签。
- 动作预测/提前(Action Anticipation) – 在观察到部分序列后预测后续动作。
- 时序分割(Temporal Segmentation) – 将长视频划分为连续的动作段落。
- 错误检测(Mistake Detection) – 判断当前动作是否为错误或纠正,这在工业场景中的质量控制尤为重要。
4. 获取方式与重要链接
内容 | 链接 | 说明 |
---|---|---|
官方项目主页 | https://assembly-101.github.io | 提供数据概览、下载说明、基准代码等。 |
论文(CVPR 2022) | https://doi.org/10.1109/CVPR52688.2022.02042 | 原始论文,详细描述数据采集与基准实验。 |
arXiv 预印本 | https://arxiv.org/abs/2203.14712 | 免费获取全文 PDF,便于快速阅读。 |
数据下载入口 | 论文或官网中提供的 Zenodo / Google Drive 链接(需遵守使用协议) | 包含原始视频、标注文件(JSON/CSV)以及 3D 手部姿态数据。 |
使用提示:下载后建议先检查数据结构(
videos/
,annotations/
,hand_poses/
),并使用官方提供的 PyTorch / TensorFlow 数据加载脚本进行快速预处理。
5. 研究价值与应用场景
- 多视角融合:可研究跨视角特征对齐、视角迁移学习等问题。
- 错误检测:为机器人协作、智能装配线提供真实错误样本,支持异常检测模型的训练。
- 手部姿态:结合 3D 手部关键点,可用于手部动作细粒度识别、虚拟现实交互等。
- 长时序建模:装配过程长度不一,适合评估 Transformer、Temporal Convolution 等长序列模型。
总结
Assembly101 通过 4,321 条多视角视频、超过 1M 条细粒度动作标注以及 18M 帧的 3D 手部姿态,为程序化活动理解提供了极其丰富且真实的资源。它不仅支撑传统的动作识别与分割任务,还首次引入错误检测标签,为工业机器人、智能辅助手等实际应用提供了重要基准。研究者可通过官方主页或论文提供的下载链接获取完整数据,并结合提供的基准代码快速开展实验。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!