Marine‑Inst20M 数据集概述
Marine‑Inst20M 是目前规模最大的海洋/水下图像数据集,专为海洋视觉理解(实例分割、实例描述、跨模态检索等)而构建。它由香港科技大学视觉计算实验室等团队在 2024‑2025 年间收集、标注并公开发布。该数据集不仅提供高质量的实例掩码,还配套了自然语言描述,使得模型能够在“掩码‑文本”层面进行细粒度理解。
1. 数据规模与基本统计
| 项目 | 数值 |
|---|---|
| 图像数量 | 约 2.4 百万 张(包括公开海洋图像、私有采集图像以及互联网抓取图像) |
| 实例掩码数量 | 约 2 0 百万 个实例掩码(约 1.89 M 人工标注 + 17.3 M 自动生成) |
| 类别数 | 超过 200 类海洋生物与非生物对象(如珊瑚、鱼类、海藻、船只、海底地形等) |
| 标注类型 | 类别标签、点标注、边界框、像素级掩码、语义实例字幕(文本) |
| 质量控制 | 二值实例过滤技术用于剔除低质量非实例掩码;人工标注与模型生成相结合,确保高精度 |
2. 数据来源与构建流程
- 公共海洋/水下数据集:从已有的公开数据集(如海底计数、目标检测、跟踪、分割等任务)中提取图像并使用 SAM(Segment Anything Model)生成 881 万实例掩码。
- 手动收集的图像:团队自行采集或从私有渠道获取的海洋图像,经过人工标注得到约 1 M 高质量实例掩码。
- 互联网自动抓取:利用公开网络资源,结合自动生成的掩码与二值过滤,进一步扩充至约 1.73 M 自动实例掩码。
上述三类来源在后期统一转化为同一格式的 JSON 注释文件,并以原始 URL 形式提供图像,以规避版权问题。
3. 标注质量与语义描述
- 二值实例过滤:通过模型判断掩码是否对应真实对象,过滤掉非实例(背景、噪声)掩码,提升整体质量。
- 实例字幕:利用大语言模型(LLM)为每个实例掩码生成详细的自然语言描述,实现“实例‑文本”对齐,支持跨模态任务如实例级图像字幕、文本到图像合成等。
4. 主要应用场景
| 场景 | 说明 |
|---|---|
| 实例分割 | 直接使用掩码进行海洋目标分割,提升水下检测精度 |
| 实例级图像字幕 | 为每个海洋对象生成语义丰富的描述,支持视觉语言任务 |
| 跨模态检索 | 基于文本查询检索对应的海洋实例掩码 |
| 文本‑图像合成 | 结合实例字幕进行海洋场景的生成与编辑 |
| 指令遵循分割 | 通过自然语言指令让模型分割特定海洋对象 |
实验表明,基于 Marine‑Inst20M 训练的 MarineInst 基础模型在显著对象分割、海底目标检测、实例字幕生成等任务上均取得 SOTA 级别的表现。
5. 获取方式与重要链接
| 内容 | 链接 |
|---|---|
| 项目主页(数据集说明、下载方式) | https://marineinst.hkustvgd.com |
| 论文(ECCV 2024)PDF | https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/00223.pdf |
| 补充材料(数据统计、构建流程图) | https://marineinst.hkustvgd.com/static/pdfs/Marine_Inst_supp.pdf |
| 数据集使用协议(JSON 注释、原始 URL) | 同项目主页的 “Dataset License” 页面(需登录后获取) |
以上链接均可直接访问,数据集以原始 URL + JSON 注释形式公开,供学术研究使用。
6. 参考文献
- Z. Zheng 等. “MarineInst: A Foundation Model for Marine Image Analysis with Instance Visual Description”. ECCV 2024.
- 项目官网及数据发布页面. https://marineinst.hkustvgd.com
小结
Marine‑Inst20M 通过融合公共数据、手工采集和自动抓取三大渠道,构建了约 2.4 M 张海洋图像、20 M 实例掩码以及对应的语义描述,成为海洋视觉理解领域的基石资源。研究者可通过项目主页获取数据并在实例分割、跨模态检索、文本‑图像合成等多种任务中直接使用或进一步扩展。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!