1. 背景与定位
- NAUTILUS 是由华中科技大学与国防科技大学联合研发的多模态大模型,专注于水下场景理解。该工作已被 NeurIPS 2025 接收。
- 与通用视觉‑语言模型(如 LLaVA‑1.5、Qwen2.5‑VL)不同,NAUTILUS 通过加入针对水下光学退化的 视觉特征增强(VFE)模块,在特征层面直接修复光线吸收、颜色失真等问题,从而提升下沉环境下的感知能力。
2. 技术架构
- 视觉前端:采用 ViT 系列视觉编码器 → VFE 模块(融合暗像素、深度信息并引入水下成像物理先验)→ 融合特征送入语言模型。
- 语言后端:基于大语言模型 Qwen2.5‑VL(或 LLaVA‑1.5)进行指令微调,使模型能够接受自然语言指令并生成文本、标注或描述。
- 训练流程:先在大规模通用视觉‑语言数据上进行预训练 → 使用专门构建的 NautData 进行多任务指令微调 → 最后加入 VFE 进行特征层面优化。
3. 数据集 – NautData
- 首个面向水下的 大规模多任务指令微调数据集。
- 规模:约 145 万 图像‑文本对。
- 任务覆盖(8 类):
4. 实验结果
- 在 NautData 测试集 上,加入 VFE 的 NAUTILUS 相比基线模型(LLaVA‑1.5、Qwen2.5‑VL)在所有 8 项任务上均实现 显著提升,尤其在图像退化严重的子集上增益最大。
- 在公开水下基准(如 IOCfish5k、Marine‑Inst20M)上,NAUTILUS 达到 SOTA 水平,尤其在计数与指代定位任务上领先 3%~5% 的准确率。
- 消融实验表明:仅加入 VFE 即可提升指标;与 NautData 结合后提升更为显著,验证了 数据 + 算法双管齐下 的有效性。
5. 关键创新点
| 创新 | 说明 |
|---|---|
| VFE 模块 | 基于水下光学模型的特征增强,直接在视觉特征层面逆转颜色偏差与模糊。 |
| NautData | 首个大规模水下多任务指令微调数据集,覆盖 8 种任务,提供统一指令格式。 |
| 跨模型迁移 | 采用已有大模型(LLaVA‑1.5、Qwen2.5‑VL)作为骨干,快速适配水下场景,降低训练成本。 |
| 端到端指令微调 | 通过自然语言指令实现“一键式”多任务切换,提升实际使用的灵活性。 |
6. 典型应用场景
- 海洋科研:自动识别、计数、描述海底生物与地形,帮助科研人员快速生成调查报告。
- 水下机器人/ROV:在潜航器上实时运行 NAUTILUS,实现 视觉感知 + 指令交互,如“检测并标记所有珊瑚”。
- 环境监测:对海底污染、珊瑚白化等现象进行快速检测与定量评估。
- 海洋教育与媒体:生成自然语言解说,配合水下影像制作科普纪录片。
7. 公开资源与链接
-
论文: https://arxiv.org/abs/2510.27481 -
项目: https://github.com/H-EmbodVis/NAUTILUS -
数据:https://github.com/H-EmbodVis/NAUTILUS/tree/dataset
8. 未来发展方向
- 跨域迁移:将 VFE 思路推广至其他光学退化场景(如雾天、夜间)。
- 多模态扩展:加入声学(水下声呐)或光学雷达(LiDAR)信息,实现 声‑光‑语言 三模态融合。
- 轻量化部署:针对资源受限的水下嵌入式平台,探索蒸馏或量化技术,以实现实时推理。
NAUTILUS 通过 大规模专属数据 + 物理先验特征增强 的双重手段,显著提升了水下视觉‑语言理解的准确性与鲁棒性,为海洋科研、工业潜航以及教育等领域提供了强大的 AI 助手。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!