什么是MERL Shopping数据集

MERL Shopping数据集概览


1. 数据集简介

MERL Shopping是由美国 Mitsubishi Electric Research Laboratories (MERL) 提供的开源购物行为检测数据集,专为研究零售环境下的人体动作识别与行为分析而设计。数据集采用固定的俯视摄像头(屋顶安装)拍摄,模拟真实超市的购物场景,旨在为行为检测、动作分割、跨模态学习等任务提供标准基准。

2. 数据内容与规模

项目 说明
视频数量 96 条(约 2 分钟/条)
参与者 41 位受试者(部分文献提到 42 人)
场景 实验室搭建的模拟超市,背景相对固定
动作类别 5(或 6)类主要购物动作:
1) reach to shelf(伸手取货)
2) retract from shelf(收回手)
3) hand in shelf(放入货架)
4) inspect product(检查商品)
5) inspect shelf(检查货架)
6) background / no‑action(背景)
标注方式 每段动作都有精确的 起止帧时间戳,便于帧级别的行为检测与分割。
传感模态 RGB 视频(后续研究中也出现 RGB‑D 扩展)

3. 下载与获取方式

资源 链接 说明
官方数据集页面 https://www.merl.com/demos/merl-shopping-dataset 包含数据集概述、示例视频与下载说明
FTP 下载地址 ftp://ftp.merl.com/pub/tmarks/MERL_Shopping_Dataset/ 采用匿名登录(用户名/密码均为 anonymous),可使用 WinSCP、FileZilla 或 wget 命令批量下载
相关论文(CVPR 2016) https://openaccess.thecvf.com/content_cvpr_2016/papers/Singh_A_Multi-Stream_Bi-Directional_CVPR_2016_paper.pdf 论文详细描述了数据采集、标注流程以及基准实验
中文介绍博客 https://zhuanlan.zhihu.com/p/160291324 对数据集结构、使用方法进行中文解读,适合快速上手
代码与基准实现(GitHub https://github.com/merlshopping/benchmark (示例仓库) 包含数据读取、预处理以及常用模型的实现代码(非官方,但社区维护)

下载提示:使用 wget -r ftp://ftp.merl.com/pub/tmarks/MERL_Shopping_Dataset/ 时可能出现连接中断,建议分批下载或使用断点续传工具。

4. 常见研究方向与使用案例

  1. 行为检测与时序建模:基于双向 LSTM、Temporal Convolutional Networks 等对动作起止进行预测。
  2. 跨模态学习:结合 RGB 与深度信息(RGB‑D)提升对细粒度动作的辨识度。
  3. 场景理解:利用动作序列推断购物意图、商品摆放优化等。
  4. 迁移学习:将在 MERL 上预训练的特征迁移到真实零售摄像头数据,提高模型鲁棒性

5. 使用注意事项

  • 版权与引用:数据集采用 MIT 许可证(可自由使用),但在学术论文中请务必引用原始论文和数据集页面。
  • 数据质量:由于拍摄环境为实验室模拟,光照、摄像头视角相对固定,实际零售场景可能存在更复杂的遮挡与光照变化。
  • 标注一致性:动作类别划分较为粗粒度,若需要更细致的手部或商品交互标签,可能需要自行细化标注。

6. 参考文献

  1. Singh, A., et al. “A Multi‑Stream Bi‑Directional LSTM for Action Detection.” CVPR 2016.
  2. MERL Shopping Dataset 官方页面及下载链接。
  3. Gu, D. “3D Densely Connected Convolutional Network for the Recognition of Human Shopping Actions.” (University of Ottawa, 2017).
  4. 相关中文博客与社区实现代码。
来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!