什么是NautData数据集

AI解读 3小时前 硕雀
3 0

NautData 数据集概述

NautData 是为水下场景理解而专门构建的大规模多模态数据集。它包含约 145 万条图像‑文本对,覆盖 八类水下任务,包括场景分类、目标检测、目标分割、图像描述、视觉问答、跨模态检索、深度估计以及图像增强等。数据集的规模和任务多样性旨在解决水下视觉研究中长期存在的“数据荒”问题,为训练和评估水下大模型(如 NAUTILUS)提供统一基准。

关键特性 说明
规模 1.45 M 图像‑文本对
任务覆盖 场景分类、目标检测、分割、描述、VQA、检索、深度估计、图像增强
模态 RGB 图像 + 对应自然语言描述
数据来源 多源水下拍摄,涵盖珊瑚礁、海底岩石、沉船、海洋生物等多种环境
挑战 水下光学衰减、颜色失真、噪声等导致的图像质量下降
增强模块 为提升模型鲁棒性,数据集配套提供了基于水下成像模型的 Vision Feature Enhancement (VFE) 插件,可在训练时恢复清晰的水下信息
公开获取 项目代码与数据均托管在 GitHub,地址为 https://github.com/H-EmbodVis/NAUTILUS

使用场景

  • 模型预训练 / 指令微调:可直接用于多任务指令微调,帮助模型学习跨任务的统一表示。
  • 算法评估:提供统一的评测基准,便于比较不同水下视觉算法在同一数据集上的表现。
  • 鲁棒性研究:结合 VFE 模块,可研究在不同水下光学条件下模型的稳健性。

获取方式

  1. 访问 GitHub 项目页面(上表提供的链接)。
  2. 在仓库的 datasets/ 目录下可下载完整的图像‑文本对压缩包。
  3. 项目文档中提供了数据集的划分(训练/验证/测试)以及对应的任务说明文件。

参考文献

  • NAUTILUS 论文(arXiv)详细阐述了 NautData 的构建动机、数据规模、任务划分以及 VFE 模块的设计。
  • 相关中文博客对数据集的背景与意义进行了概述,强调了其在水下多任务学习中的重要性。
来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!