NautData 数据集概述
NautData 是为水下场景理解而专门构建的大规模多模态数据集。它包含约 145 万条图像‑文本对,覆盖 八类水下任务,包括场景分类、目标检测、目标分割、图像描述、视觉问答、跨模态检索、深度估计以及图像增强等。数据集的规模和任务多样性旨在解决水下视觉研究中长期存在的“数据荒”问题,为训练和评估水下大模型(如 NAUTILUS)提供统一基准。
| 关键特性 | 说明 |
|---|---|
| 规模 | 1.45 M 图像‑文本对 |
| 任务覆盖 | 场景分类、目标检测、分割、描述、VQA、检索、深度估计、图像增强 |
| 模态 | RGB 图像 + 对应自然语言描述 |
| 数据来源 | 多源水下拍摄,涵盖珊瑚礁、海底岩石、沉船、海洋生物等多种环境 |
| 挑战 | 水下光学衰减、颜色失真、噪声等导致的图像质量下降 |
| 增强模块 | 为提升模型鲁棒性,数据集配套提供了基于水下成像模型的 Vision Feature Enhancement (VFE) 插件,可在训练时恢复清晰的水下信息 |
| 公开获取 | 项目代码与数据均托管在 GitHub,地址为 https://github.com/H-EmbodVis/NAUTILUS |
使用场景
- 模型预训练 / 指令微调:可直接用于多任务指令微调,帮助模型学习跨任务的统一表示。
- 算法评估:提供统一的评测基准,便于比较不同水下视觉算法在同一数据集上的表现。
- 鲁棒性研究:结合 VFE 模块,可研究在不同水下光学条件下模型的稳健性。
获取方式
- 访问 GitHub 项目页面(上表提供的链接)。
- 在仓库的
datasets/目录下可下载完整的图像‑文本对压缩包。 - 项目文档中提供了数据集的划分(训练/验证/测试)以及对应的任务说明文件。
参考文献
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!