什么是Assembly101数据集

AI解读 15小时前 硕雀
5 0

Assembly101 数据集概览

Assembly101 是一个面向 程序化活动(procedural activities)‍ 的大规模多视角视频数据集,专为研究人类动作理解、手部姿态估计以及错误检测等任务设计。下面从数据规模、采集方式、标注内容、常用基准任务以及获取渠道等方面进行详细介绍。


1. 数据规模与采集方式

  • 视频数量:约 4,321 条完整视频,涵盖 101 种可拆解的玩具车辆(“take‑apart” toy vehicles)。
  • 视角配置:同步录制 8 条静态(第三人称)视角 与 4 条头戴式(egocentric)视角,实现了首个多视角动作数据集。
  • 参与者:多位被试在无固定指令的情况下自行完成装配/拆解,因而自然出现动作顺序、错误与纠正的多样变化。

2. 标注内容

标注层级 说明
粗粒度动作(Coarse‑grained) 超过 100K 条粗粒度动作段落,标记了装配过程的主要步骤。
细粒度动作(Fine‑grained) 超过 1M 条细粒度动作段落,提供了每个原子操作的时间戳。
3D 手部姿态 约 18M 帧的 3D 手部关键点(hand pose)标注,支持手部运动分析。
错误/纠正标签 为每段动作标记是否为 mistake(错误)或 correction(纠正),首次在大规模数据集中引入错误检测任务。

3. 常用基准任务

  1. 动作识别Action Recognition‍ – 预测每帧的粗/细粒度动作标签。
  2. 动作预测/提前(Action Anticipation)‍ – 在观察到部分序列后预测后续动作。
  3. 时序分割(Temporal Segmentation)‍ – 将长视频划分为连续的动作段落。
  4. 错误检测(Mistake Detection)‍ – 判断当前动作是否为错误或纠正,这在工业场景中的质量控制尤为重要。

4. 获取方式与重要链接

内容 链接 说明
官方项目主页 https://assembly-101.github.io 提供数据概览、下载说明、基准代码等。
论文(CVPR 2022) https://doi.org/10.1109/CVPR52688.2022.02042 原始论文,详细描述数据采集与基准实验。
arXiv 预印本 https://arxiv.org/abs/2203.14712 免费获取全文 PDF,便于快速阅读。
数据下载入口 论文或官网中提供的 Zenodo / Google Drive 链接(需遵守使用协议) 包含原始视频、标注文件(JSON/CSV)以及 3D 手部姿态数据。

使用提示:下载后建议先检查数据结构videos/annotations/hand_poses/),并使用官方提供的 PyTorch / TensorFlow 数据加载脚本进行快速预处理。

5. 研究价值与应用场景

  • 多视角融合:可研究跨视角特征对齐、视角迁移学习等问题。
  • 错误检测:为机器人协作、智能装配线提供真实错误样本,支持异常检测模型的训练。
  • 手部姿态:结合 3D 手部关键点,可用于手部动作细粒度识别、虚拟现实交互等。
  • 时序建模:装配过程长度不一,适合评估 Transformer、Temporal Convolution 等长序列模型。

总结
Assembly101 通过 4,321 条多视角视频、超过 1M 条细粒度动作标注以及 18M 帧的 3D 手部姿态,为程序化活动理解提供了极其丰富且真实的资源。它不仅支撑传统的动作识别与分割任务,还首次引入错误检测标签,为工业机器人、智能辅助手等实际应用提供了重要基准。研究者可通过官方主页或论文提供的下载链接获取完整数据,并结合提供的基准代码快速开展实验。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!