什么是Marine-Inst20M数据集

Marine‑Inst20M 数据集概述

Marine‑Inst20M 是目前规模最大的海洋/水下图像数据集,专为海洋视觉理解(实例分割、实例描述、跨模态检索等)而构建。它由香港科技大学视觉计算实验室等团队在 2024‑2025 年间收集、标注并公开发布。该数据集不仅提供高质量的实例掩码,还配套了自然语言描述,使得模型能够在“掩码‑文本”层面进行细粒度理解。


1. 数据规模与基本统计

项目 数值
图像数量 约 2.4 百万 张(包括公开海洋图像、私有采集图像以及互联网抓取图像)
实例掩码数量 约 2 0 百万 个实例掩码(约 1.89 M 人工标注 + 17.3 M 自动生成)
类别数 超过 200 类海洋生物与非生物对象(如珊瑚、鱼类、海藻、船只、海底地形等)
标注类型 类别标签、点标注、边界框、像素级掩码、语义实例字幕(文本)
质量控制 二值实例过滤技术用于剔除低质量非实例掩码;人工标注与模型生成相结合,确保高精度

2. 数据来源与构建流程

  1. 公共海洋/水下数据集:从已有的公开数据集(如海底计数、目标检测、跟踪、分割等任务)中提取图像并使用 SAMSegment Anything Model)生成 881 万实例掩码。
  2. 手动收集的图像:团队自行采集或从私有渠道获取的海洋图像,经过人工标注得到约 1 M 高质量实例掩码。
  3. 互联网自动抓取:利用公开网络资源,结合自动生成的掩码与二值过滤,进一步扩充至约 1.73 M 自动实例掩码。

上述三类来源在后期统一转化为同一格式的 JSON 注释文件,并以原始 URL 形式提供图像,以规避版权问题。


3. 标注质量与语义描述

  • 二值实例过滤:通过模型判断掩码是否对应真实对象,过滤掉非实例(背景、噪声)掩码,提升整体质量。
  • 实例字幕:利用大语言模型LLM)为每个实例掩码生成详细的自然语言描述,实现“实例‑文本”对齐,支持跨模态任务如实例级图像字幕、文本到图像合成等。

4. 主要应用场景

场景 说明
实例分割 直接使用掩码进行海洋目标分割,提升水下检测精度
实例级图像字幕 为每个海洋对象生成语义丰富的描述,支持视觉语言任务
跨模态检索 基于文本查询检索对应的海洋实例掩码
文本‑图像合成 结合实例字幕进行海洋场景的生成与编辑
指令遵循分割 通过自然语言指令让模型分割特定海洋对象

实验表明,基于 Marine‑Inst20M 训练的 MarineInst 基础模型在显著对象分割、海底目标检测、实例字幕生成等任务上均取得 SOTA 级别的表现。


5. 获取方式与重要链接

内容 链接
项目主页(数据集说明、下载方式) https://marineinst.hkustvgd.com
论文(ECCV 2024)PDF https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/00223.pdf
补充材料(数据统计、构建流程图 https://marineinst.hkustvgd.com/static/pdfs/Marine_Inst_supp.pdf
数据集使用协议(JSON 注释、原始 URL) 同项目主页的 “Dataset License” 页面(需登录后获取)

以上链接均可直接访问,数据集以原始 URL + JSON 注释形式公开,供学术研究使用。


6. 参考文献

  1. Z. Zheng 等. “MarineInst: A Foundation Model for Marine Image Analysis with Instance Visual Description”. ECCV 2024.
  2. 项目官网及数据发布页面. https://marineinst.hkustvgd.com

小结
Marine‑Inst20M 通过融合公共数据、手工采集和自动抓取三大渠道,构建了约 2.4 M 张海洋图像、20 M 实例掩码以及对应的语义描述,成为海洋视觉理解领域的基石资源。研究者可通过项目主页获取数据并在实例分割、跨模态检索、文本‑图像合成等多种任务中直接使用或进一步扩展。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!