什么是Marine-Inst20M数据集

Marine‑Inst20M 数据集概述

Marine‑Inst20M 是目前规模最大的海洋/水下图像数据集，专为海洋视觉理解（实例分割、实例描述、跨模态检索等）而构建。它由香港科技大学视觉计算实验室等团队在 2024‑2025 年间收集、标注并公开发布。该数据集不仅提供高质量的实例掩码，还配套了自然语言描述，使得模型能够在“掩码‑文本”层面进行细粒度理解。

1. 数据规模与基本统计

项目	数值
图像数量	约 2.4 百万张（包括公开海洋图像、私有采集图像以及互联网抓取图像）
实例掩码数量	约 2 0 百万个实例掩码（约 1.89 M 人工标注 + 17.3 M 自动生成）
类别数	超过 200 类海洋生物与非生物对象（如珊瑚、鱼类、海藻、船只、海底地形等）
标注类型	类别标签、点标注、边界框、像素级掩码、语义实例字幕（文本）
质量控制	二值实例过滤技术用于剔除低质量非实例掩码；人工标注与模型生成相结合，确保高精度

2. 数据来源与构建流程

公共海洋/水下数据集：从已有的公开数据集（如海底计数、目标检测、跟踪、分割等任务）中提取图像并使用 SAM（Segment Anything Model）生成 881 万实例掩码。
手动收集的图像：团队自行采集或从私有渠道获取的海洋图像，经过人工标注得到约 1 M 高质量实例掩码。
互联网自动抓取：利用公开网络资源，结合自动生成的掩码与二值过滤，进一步扩充至约 1.73 M 自动实例掩码。

上述三类来源在后期统一转化为同一格式的 JSON 注释文件，并以原始 URL 形式提供图像，以规避版权问题。

3. 标注质量与语义描述

二值实例过滤：通过模型判断掩码是否对应真实对象，过滤掉非实例（背景、噪声）掩码，提升整体质量。
实例字幕：利用大语言模型（LLM）为每个实例掩码生成详细的自然语言描述，实现“实例‑文本”对齐，支持跨模态任务如实例级图像字幕、文本到图像合成等。

4. 主要应用场景

场景	说明
实例分割	直接使用掩码进行海洋目标分割，提升水下检测精度
实例级图像字幕	为每个海洋对象生成语义丰富的描述，支持视觉语言任务
跨模态检索	基于文本查询检索对应的海洋实例掩码
文本‑图像合成	结合实例字幕进行海洋场景的生成与编辑
指令遵循分割	通过自然语言指令让模型分割特定海洋对象

实验表明，基于 Marine‑Inst20M 训练的 MarineInst 基础模型在显著对象分割、海底目标检测、实例字幕生成等任务上均取得 SOTA 级别的表现。

5. 获取方式与重要链接

内容	链接
项目主页（数据集说明、下载方式）	https://marineinst.hkustvgd.com
论文（ECCV 2024）PDF	https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/00223.pdf
补充材料（数据统计、构建流程图）	https://marineinst.hkustvgd.com/static/pdfs/Marine_Inst_supp.pdf
数据集使用协议（JSON 注释、原始 URL）	同项目主页的 “Dataset License” 页面（需登录后获取）

以上链接均可直接访问，数据集以原始 URL + JSON 注释形式公开，供学术研究使用。

6. 参考文献

Z. Zheng 等. “MarineInst: A Foundation Model for Marine Image Analysis with Instance Visual Description”. ECCV 2024.
项目官网及数据发布页面. https://marineinst.hkustvgd.com

小结
Marine‑Inst20M 通过融合公共数据、手工采集和自动抓取三大渠道，构建了约 2.4 M 张海洋图像、20 M 实例掩码以及对应的语义描述，成为海洋视觉理解领域的基石资源。研究者可通过项目主页获取数据并在实例分割、跨模态检索、文本‑图像合成等多种任务中直接使用或进一步扩展。