注视预测(Fixation Prediction,FP)概述
1. 什么是注视预测
注视预测(Fixation Prediction,FP)指的是在给定图像、视频或三维场景时,预测人类观察者在首次浏览时最可能落在的注视点(fixation points)或其分布(fixation map)。它本质上是对人类视觉注意力的建模,旨在回答“人们第一眼会看哪里?”这一问题。
2. 研究背景与发展脉络
时间 |
关键里程碑 |
说明 |
1960‑1970 |
Yarbus、特征整合理论(Feature Integration Theory)提出视觉注意的基本机制 |
为后续的显著性模型奠定认知基础 |
1998‑2005 |
Itti、GBVS 等基于低层特征的显著性模型出现 |
采用颜色、亮度、方向等底层特征进行点预测 |
2014‑2018 |
深度卷积网络(CNN)引入,显著性预测进入深度学习时代 |
SALICON 等大规模数据集推动模型突破 |
2020‑2024 |
多模态、时序(LSTM/Transformer)以及生成式(Diffusion)模型快速发展 |
例如 UniAR、CaRDiff 等统一或跨模态框架 |
2025 及以后 |
大语言模型(LLM)与认知模型结合,生成合成注视数据、提升跨任务泛化 |
EMMA 认知模型生成合成注视用于预训练 |
3. 任务划分
- 场景驱动(Bottom‑up):仅依据图像/视频的低层或中层特征预测注视点,常称为显著性预测。
- 期望驱动(Top‑down):结合任务、语义或用户意图进行预测,如搜索、驾驶、交互等。
- 静态 vs 动态:
- 静态图像:预测单帧的注视密度图。
- 视频/VR:预测随时间变化的注视序列或扫描路径。
4. 主流方法
方法类别 |
代表模型/技术 |
关键特点 |
传统特征模型 |
Itti、GBVS、Spectral Residual |
基于颜色、亮度、方向等低层特征,计算显著图 |
深度卷积网络 |
SALICON(基于 VGG/ResNet)、DeepGaze II、SAM‑ResNet |
利用预训练的语义特征缩小“语义鸿沟”。 |
时序模型 |
ACLNet(CNN‑LSTM)、ACLNet(动态) |
融合空间特征与时间信息,适用于视频。 |
注意力/Transformer |
ViT‑based Saliency、UniAR(统一注意力与评分) |
多头自注意力捕获全局依赖,支持多任务。 |
生成式/扩散模型 |
CaRDiff(Diffusion + MLLM) |
通过大语言模型生成标题/排序,引导显著对象的生成。 |
认知模型 + 合成数据 |
EMMA 认知模型 → 合成注视(用于预训练) |
将人类注意机制显式建模,提升数据稀缺场景的表现。 |
5. 常用数据集
数据集 |
类型 |
规模 |
备注 |
SALICON |
静态图像 |
~10 k 训练图 |
采用高层语义特征,广泛用于深度模型预训练 |
MIT300 / MIT1003 |
静态图像 |
300 / 1003 张 |
经典基准,提供高质量注视点标注 |
DHF1K |
视频 |
1 000 视频(≈58 万帧) |
包含 17 位观察者的注视轨迹,是目前最大的视频注视数据集 |
Hollywood‑2、UCF‑Sports、LEDOV |
视频 |
数百至上千段 |
用于评估动态显著性模型 |
CAT2000、CAT2000‑360 |
静态/全景 |
2 000+ 图像 |
包含多种场景、任务标签 |
MASSVIS、MSCOCO‑EMMA |
多模态 |
通过合成注视扩展 |
用于跨模态预训练 |
6. 评价指标
指标 |
含义 |
常用场景 |
AUC‑Judd |
ROC 曲线下面积,衡量二分类区分能力 |
静态/动态均使用 |
sAUC(shuffle AUC) |
排除中心偏置的 AUC |
评估模型对真实注视的捕获 |
CC(Correlation Coefficient) |
预测与真实注视密度图的线性相关性 |
连续密度图评估 |
NSS(Normalized Scanpath Saliency) |
预测图在真实注视点上的标准化得分 |
关注点精度 |
SIM(Similarity) |
两幅密度图的交叉相似度 |
整体分布匹配 |
这些指标在多个基准(如 DHF1K)上被统一报告,帮助对比不同模型的性能。
7. 典型应用
场景 |
作用 |
虚拟现实/增强现实渲染 |
通过预测用户视线提前渲染感兴趣区域,降低计算开销 |
驾驶安全 |
预测司机的注视序列,提前预警注意力偏移或分心 |
人机交互 UI 设计 |
依据注视热图优化按钮布局、信息层级,提高可用性 |
广告与营销 |
评估视觉素材的吸引力,指导创意排版 |
神经影像学(fMRI) |
使用 PEER 方法在扫描过程中估计注视,提高实验控制 |
机器人视觉 |
让机器人关注人类注视点,实现协同操作与意图推断 |
8. 主要挑战
- 语义鸿沟:低层特征难以捕捉高层语义导致预测偏差。
- 跨模态与任务迁移:不同任务(搜索、驾驶)对注视的驱动因素差异大,模型泛化仍不足。
- 数据稀缺与标注成本:高质量眼动追踪数据获取成本高,尤其是 360°、VR 场景。
- 评价偏差:中心偏置、数据集分布不均导致指标误导,需要多指标综合评估。
9. 未来发展趋势
趋势 |
说明 |
大语言模型 + 生成式方法 |
通过 MLLM 生成场景描述或注视排序,引导扩散模型生成更符合语义的显著图 |
认知模型驱动的合成数据 |
EMMA 等认知模型可在缺少标注的数据上生成高质量合成注视,用于预训练或跨任务迁移 |
统一多任务框架 |
UniAR 等模型同时预测显著性、重要性、用户评分,实现“一站式”视觉注意预测 |
实时轻量化部署 |
结合高效 backbone(MobileNet、EfficientNet)与硬件加速,实现移动端/嵌入式实时注视预测 |
跨感官融合 |
融合音频、文本、动作等多模态信息,提升在视频、交互式场景中的预测准确性 |
10. 小结
注视预测是连接认知心理学、计算机视觉与交互技术的关键桥梁。它从最早的特征整合理论发展到如今的深度、生成式、多模态模型,已经在 VR 渲染、驾驶安全、神经科学等多个领域展现价值。尽管仍面临语义鸿沟、数据稀缺和跨任务泛化等挑战,但随着大语言模型、认知生成模型以及统一多任务框架的兴起,注视预测有望在 2025 年以后实现更高的语义理解和实时部署,为人机交互提供更自然、更高效的视觉感知能力。