LVIS(Large Vocabulary Instance Segmentation)概述
- 全称:Large Vocabulary Instance Segmentation
- 发布机构:Facebook AI Research(FAIR)
- 核心目标:提供一个大规模、细粒度、词汇级别的实例分割基准,专门用于评估能够识别 千余类(> 1000)目标并在 长尾分布(少样本类别)下仍保持性能的模型。
1. 数据规模与组成
| 项目 | 数量 | 说明 |
|---|---|---|
| 图像数量 | 约 164 k 张 | 与 COCO 使用相同的原始图像,但重新标注 |
| 实例标注 | 约 2 百万 高质量实例分割掩码 | 每个实例均提供精细的分割掩码,标注质量高于 COCO、ADE20K 等 |
| 类别数量 | 1203 - 1230 类(词汇表) | 包含常见物体(汽车、动物)以及细粒度类别(雨伞、手提包等) |
| 数据划分 | 训练、验证、Minival、测试四子集 | 训练集约 160 k 张,验证集约 5 k 张,其他子集用于挑战赛 |
长尾特性:自然图像中的类别分布呈 Zipfian(幂律)形态,绝大多数类别仅有少量标注样本,这为低样本学习(few‑shot)提出了严峻挑战。
2. 设计理念与标注流程
- 联邦数据集(Federated Dataset):每个类别单独构成一个小数据集,保证该类别的正例与负例都被彻底标注,降低全图标注成本。
- 六阶段标注流水线:
- 对象定位
- 穷尽标记(exhaustive labeling)
- 实例分割(高质量掩码)
- 验证与质量控制
- 负例集标注
- 最终审查
- 标注质量:全部采用人工标注,避免机器辅助导致的误差,确保掩码边界细致、误差率低于现有数据集。
3. 评估协议
- 指标:沿用 COCO‑style 的 Average Precision (AP)、Average Recall (AR),并在长尾设置下提供 rare / common / frequent 三类 AP 细分。
- 挑战赛:首次 LVIS Challenge 于 ICCV 2019 COCO Workshop 举办,后续每年都有基准赛供研究者对比模型。
4. 获取方式
- 官方网站:<http://www.lvisdataset.org >(提供数据下载、文档、基准评测脚本)
- 论文(CVPR 2019):
- 标题:《LVIS: A Dataset for Large Vocabulary Instance Segmentation》
- 链接:<https://arxiv.org/pdf/1908.03195.pdf >(arXiv 预印本)
- 数据下载(示例)
- 训练/验证标注 JSON:
lvis_v0.5_train.json、lvis_v0.5_val.json(可在官网的 “Download” 页面获取) - 图像:直接使用 COCO 原始图像,遵循 COCO 使用协议
- 训练/验证标注 JSON:
- API 与代码:FAIR 提供 Python API,GitHub 上有
lvis-api项目,可直接pip install lvis使用。
5. 典型应用场景
- 长尾目标检测:评估模型在少样本类别上的识别能力。
- 细粒度实例分割:对同类细分(如不同种类的鞋、不同品牌的背包)进行精准分割。
- 迁移学习基准:常用 COCO 预训练模型在 LVIS 上微调,以检验模型的泛化与适应性。
- 新算法验证:Few‑shot、meta‑learning、imbalanced‑learning 等前沿方法的标准测试平台。
6. 参考文献(可直接引用)
- Gupta A., Dollár P., Girshick R. “LVIS: A Dataset for Large Vocabulary Instance Segmentation”, CVPR 2019.
- LVIS 官方网站.
- LVIS 数据集说明文档(FAIR).
小结:LVIS 是目前公开的 最大、最细粒度 的实例分割数据集之一,专注于 千类以上 的长尾分布问题。它在图像数量、标注质量、评估协议上均与 COCO 保持兼容,却在词汇规模和稀有类别上提供了更具挑战性的基准,已成为计算机视觉社区研究 大词汇、低样本学习 的重要资源。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!