什么是DeepEyes

AI解读 2个月前 硕雀
42 0

DeepEyes 是一个名称在不同领域出现的技术项目,主要可以分为两大方向:


1. DeepEyes(可视化分析系统)

定位:面向深度神经网络DNN)设计的渐进式可视化分析平台。
核心功能

  • 层级稳定性检测:通过 Perplexity Histograms 判断哪些网络层已经学习到稳定的特征模式。
  • 退化神经元/过滤器发现:利用 Activation Heatmap 快速定位失效或冗余的卷积核
  • 输入‑过滤器映射Input Map 与 Filter Map 将输入实例的接收域与对应过滤器的激活关联,可视化模式‑标签关系。
  • 交互式迭代:用户可以在 Stable Layer → Degenerated Filter → Input‑Filter → Add Layer 的工作流中逐步优化网络结构,支持压缩、重塑或增添层次。

技术实现

  • 基于 Caffe 框架的模型加载与训练,前端使用 QtOpenGLD3.js 实现高效渲染。
  • 采用 Model‑View‑Controller 架构,后续可扩展至 TensorFlowTheano 等深度学习库。

典型应用

  • 在 MNIST 手写数字实验中,DeepEyes 帮助压缩网络层数并提升准确率
  • 医学影像(如肿瘤组织的有丝分裂计数)中,帮助研究者发现难分类样本并指导训练集扩充。

获取途径


2. DeepEyes(多模态“图像思考”模型)

定位:由 小红书 与 西安交通大学 联合研发的端到端强化学习驱动的多模态大语言模型,旨在让模型在推理过程中主动“思考”并使用图像工具。

核心创新

  • 图像思考(Thinking with Images)‍:模型在回答时可以调用图像裁剪、放大、比较等工具,实现视觉信息的深度融合,而不是仅在文本层面进行推理。
  • 强化学习奖励机制:引入 条件工具奖励,只有在正确使用工具得到正确答案时才获得奖励,从而显著提升模型的工具使用率和推理准确度。
  • 三阶段训练:① 初始工具探索 → ② 高频工具使用 → ③ 高效选择性使用,逐步形成精细的视觉推理策略。

性能表现

  • 在高分辨率视觉推理基准上,超过多数开源模型,甚至接近或超越 OpenAI o3 的图像推理能力。
  • 在 groundinghallucination 抑制等评测中取得显著提升,证明模型对图像细节的感知更为可靠。

技术细节

  • 基础模型采用 Qwen‑2.5‑VL‑7B‑Instruct,在此之上加入 VeRL 强化学习框架进行端到端训练。
  • 推荐使用 32–64 块 GPU 进行大规模训练,代码已开源在 GitHub 上。

获取途径


小结

  • 可视化分析系统 侧重帮助研究者在网络训练期间直观诊断、压缩和改进 DNN 结构。
  • 多模态思考模型 则聚焦于让大语言模型在推理时主动使用图像工具,实现更深层次的视觉‑语言融合。

两者虽然同名,但服务的目标用户和技术实现截然不同,使用时请根据具体需求选择对应的 DeepEyes 项目。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!