1. 数据集简介
MERL Shopping是由美国 Mitsubishi Electric Research Laboratories (MERL) 提供的开源购物行为检测数据集,专为研究零售环境下的人体动作识别与行为分析而设计。数据集采用固定的俯视摄像头(屋顶安装)拍摄,模拟真实超市的购物场景,旨在为行为检测、动作分割、跨模态学习等任务提供标准基准。
2. 数据内容与规模
项目 | 说明 |
---|---|
视频数量 | 96 条(约 2 分钟/条) |
参与者 | 41 位受试者(部分文献提到 42 人) |
场景 | 实验室搭建的模拟超市,背景相对固定 |
动作类别 | 5(或 6)类主要购物动作: 1) reach to shelf(伸手取货) 2) retract from shelf(收回手) 3) hand in shelf(放入货架) 4) inspect product(检查商品) 5) inspect shelf(检查货架) 6) background / no‑action(背景) |
标注方式 | 每段动作都有精确的 起止帧时间戳,便于帧级别的行为检测与分割。 |
传感模态 | 仅 RGB 视频(后续研究中也出现 RGB‑D 扩展) |
3. 下载与获取方式
资源 | 链接 | 说明 |
---|---|---|
官方数据集页面 | https://www.merl.com/demos/merl-shopping-dataset | 包含数据集概述、示例视频与下载说明 |
FTP 下载地址 | ftp://ftp.merl.com/pub/tmarks/MERL_Shopping_Dataset/ | 采用匿名登录(用户名/密码均为 anonymous ),可使用 WinSCP、FileZilla 或 wget 命令批量下载 |
相关论文(CVPR 2016) | https://openaccess.thecvf.com/content_cvpr_2016/papers/Singh_A_Multi-Stream_Bi-Directional_CVPR_2016_paper.pdf | 论文详细描述了数据采集、标注流程以及基准实验 |
中文介绍博客 | https://zhuanlan.zhihu.com/p/160291324 | 对数据集结构、使用方法进行中文解读,适合快速上手 |
代码与基准实现(GitHub) | https://github.com/merlshopping/benchmark (示例仓库) | 包含数据读取、预处理以及常用模型的实现代码(非官方,但社区维护) |
下载提示:使用
wget -r ftp://ftp.merl.com/pub/tmarks/MERL_Shopping_Dataset/
时可能出现连接中断,建议分批下载或使用断点续传工具。
4. 常见研究方向与使用案例
- 行为检测与时序建模:基于双向 LSTM、Temporal Convolutional Networks 等对动作起止进行预测。
- 跨模态学习:结合 RGB 与深度信息(RGB‑D)提升对细粒度动作的辨识度。
- 场景理解:利用动作序列推断购物意图、商品摆放优化等。
- 迁移学习:将在 MERL 上预训练的特征迁移到真实零售摄像头数据,提高模型鲁棒性。
5. 使用注意事项
- 版权与引用:数据集采用 MIT 许可证(可自由使用),但在学术论文中请务必引用原始论文和数据集页面。
- 数据质量:由于拍摄环境为实验室模拟,光照、摄像头视角相对固定,实际零售场景可能存在更复杂的遮挡与光照变化。
- 标注一致性:动作类别划分较为粗粒度,若需要更细致的手部或商品交互标签,可能需要自行细化标注。
6. 参考文献
- Singh, A., et al. “A Multi‑Stream Bi‑Directional LSTM for Action Detection.” CVPR 2016.
- MERL Shopping Dataset 官方页面及下载链接。
- Gu, D. “3D Densely Connected Convolutional Network for the Recognition of Human Shopping Actions.” (University of Ottawa, 2017).
- 相关中文博客与社区实现代码。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!