什么是注视预测(Fixation Prediction,FP)

AI解读 2小时前 硕雀
3 0

注视预测Fixation Prediction,FP)概述


1. 什么是注视预测

注视预测(Fixation Prediction,FP)指的是在给定图像、视频或三维场景时,预测人类观察者在首次浏览时最可能落在的注视点(fixation points)或其分布(fixation map)。它本质上是对人类视觉注意力的建模,旨在回答“人们第一眼会看哪里?”这一问题。


2. 研究背景与发展脉络

时间 关键里程碑 说明
1960‑1970 Yarbus、特征整合理论(Feature Integration Theory)提出视觉注意的基本机制 为后续的显著性模型奠定认知基础
1998‑2005 Itti、GBVS 等基于低层特征的显著性模型出现 采用颜色、亮度、方向等底层特征进行点预测
2014‑2018 深度卷积网络(CNN)引入,显著性预测进入深度学习时代 SALICON 等大规模数据集推动模型突破
2020‑2024 多模态、时序(LSTM/Transformer)以及生成式(Diffusion)模型快速发展 例如 UniAR、CaRDiff 等统一或跨模态框架
2025 及以后 大语言模型LLM)与认知模型结合,生成合成注视数据、提升跨任务泛化 EMMA 认知模型生成合成注视用于预训练

3. 任务划分

  1. 场景驱动(Bottom‑up)‍:仅依据图像/视频的低层或中层特征预测注视点,常称为显著性预测。
  2. 期望驱动(Top‑down)‍:结合任务、语义或用户意图进行预测,如搜索、驾驶、交互等。
  3. 静态 vs 动态
    • 静态图像:预测单帧的注视密度图。
    • 视频/VR:预测随时间变化的注视序列或扫描路径。

4. 主流方法

方法类别 代表模型/技术 关键特点
传统特征模型 Itti、GBVS、Spectral Residual 基于颜色、亮度、方向等低层特征,计算显著图
深度卷积网络 SALICON(基于 VGG/ResNet)、DeepGaze II、SAM‑ResNet 利用预训练的语义特征缩小“语义鸿沟”。
时序模型 ACLNet(CNN‑LSTM)、ACLNet(动态) 融合空间特征与时间信息,适用于视频。
注意力/Transformer ViT‑based Saliency、UniAR(统一注意力与评分) 多头自注意力捕获全局依赖,支持多任务。
生成式/扩散模型 CaRDiff(Diffusion + MLLM 通过大语言模型生成标题/排序,引导显著对象的生成。
认知模型 + 合成数据 EMMA 认知模型 → 合成注视(用于预训练) 将人类注意机制显式建模,提升数据稀缺场景的表现。

5. 常用数据集

数据集 类型 规模 备注
SALICON 静态图像 ~10 k 训练图 采用高层语义特征,广泛用于深度模型预训练
MIT300 / MIT1003 静态图像 300 / 1003 张 经典基准,提供高质量注视点标注
DHF1K 视频 1 000 视频(≈58 万帧) 包含 17 位观察者的注视轨迹,是目前最大的视频注视数据集
Hollywood‑2、UCF‑Sports、LEDOV 视频 数百至上千段 用于评估动态显著性模型
CAT2000、CAT2000‑360 静态/全景 2 000+ 图像 包含多种场景、任务标签
MASSVIS、MSCOCO‑EMMA 多模态 通过合成注视扩展 用于跨模态预训练

6. 评价指标

指标 含义 常用场景
AUC‑Judd ROC 曲线下面积,衡量二分类区分能力 静态/动态均使用
sAUC(shuffle AUC) 排除中心偏置的 AUC 评估模型对真实注视的捕获
CC(Correlation Coefficient) 预测与真实注视密度图的线性相关性 连续密度图评估
NSS(Normalized Scanpath Saliency) 预测图在真实注视点上的标准化得分 关注点精度
SIM(Similarity) 两幅密度图的交叉相似度 整体分布匹配

这些指标在多个基准(如 DHF1K)上被统一报告,帮助对比不同模型的性能。


7. 典型应用

场景 作用
虚拟现实/增强现实渲染 通过预测用户视线提前渲染感兴趣区域,降低计算开销
驾驶安全 预测司机的注视序列,提前预警注意力偏移或分心
人机交互 UI 设计 依据注视热图优化按钮布局、信息层级,提高可用性
广告与营销 评估视觉素材的吸引力,指导创意排版
神经影像学(fMRI 使用 PEER 方法在扫描过程中估计注视,提高实验控制
机器人视觉 让机器人关注人类注视点,实现协同操作与意图推断

8. 主要挑战

  1. 语义鸿沟:低层特征难以捕捉高层语义导致预测偏差
  2. 跨模态与任务迁移:不同任务(搜索、驾驶)对注视的驱动因素差异大,模型泛化仍不足。
  3. 数据稀缺与标注成本:高质量眼动追踪数据获取成本高,尤其是 360°、VR 场景。
  4. 评价偏差:中心偏置、数据集分布不均导致指标误导,需要多指标综合评估。

9. 未来发展趋势

趋势 说明
大语言模型 + 生成式方法 通过 MLLM 生成场景描述或注视排序,引导扩散模型生成更符合语义的显著图
认知模型驱动的合成数据 EMMA 等认知模型可在缺少标注的数据上生成高质量合成注视,用于预训练或跨任务迁移
统一多任务框架 UniAR 等模型同时预测显著性、重要性、用户评分,实现“一站式”视觉注意预测
实时轻量化部署 结合高效 backbone(MobileNet、EfficientNet)与硬件加速,实现移动端/嵌入式实时注视预测
跨感官融合 融合音频、文本、动作等多模态信息,提升在视频、交互式场景中的预测准确性

10. 小结

注视预测是连接认知心理学、计算机视觉与交互技术的关键桥梁。它从最早的特征整合理论发展到如今的深度、生成式、多模态模型,已经在 VR 渲染、驾驶安全、神经科学等多个领域展现价值。尽管仍面临语义鸿沟、数据稀缺和跨任务泛化等挑战,但随着大语言模型、认知生成模型以及统一多任务框架的兴起,注视预测有望在 2025 年以后实现更高的语义理解和实时部署,为人机交互提供更自然、更高效的视觉感知能力。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!