什么是注视预测（Fixation Prediction，FP）

AI解读 2小时前硕雀

3 0 0

1. 什么是注视预测

注视预测（Fixation Prediction，FP）指的是在给定图像、视频或三维场景时，预测人类观察者在首次浏览时最可能落在的注视点（fixation points）或其分布（fixation map）。它本质上是对人类视觉注意力的建模，旨在回答“人们第一眼会看哪里？”这一问题。

2. 研究背景与发展脉络

时间	关键里程碑	说明
1960‑1970	Yarbus、特征整合理论（Feature Integration Theory）提出视觉注意的基本机制	为后续的显著性模型奠定认知基础
1998‑2005	Itti、GBVS 等基于低层特征的显著性模型出现	采用颜色、亮度、方向等底层特征进行点预测
2014‑2018	深度卷积网络（CNN）引入，显著性预测进入深度学习时代	SALICON 等大规模数据集推动模型突破
2020‑2024	多模态、时序（LSTM/Transformer）以及生成式（Diffusion）模型快速发展	例如 UniAR、CaRDiff 等统一或跨模态框架
2025 及以后	大语言模型（LLM）与认知模型结合，生成合成注视数据、提升跨任务泛化	EMMA 认知模型生成合成注视用于预训练

3. 任务划分

场景驱动（Bottom‑up）‍：仅依据图像/视频的低层或中层特征预测注视点，常称为显著性预测。
期望驱动（Top‑down）‍：结合任务、语义或用户意图进行预测，如搜索、驾驶、交互等。
静态 vs 动态：
- 静态图像：预测单帧的注视密度图。
- 视频/VR：预测随时间变化的注视序列或扫描路径。

4. 主流方法

方法类别	代表模型/技术	关键特点
传统特征模型	Itti、GBVS、Spectral Residual	基于颜色、亮度、方向等低层特征，计算显著图
深度卷积网络	SALICON（基于 VGG/ResNet）、DeepGaze II、SAM‑ResNet	利用预训练的语义特征缩小“语义鸿沟”。
时序模型	ACLNet（CNN‑LSTM）、ACLNet（动态）	融合空间特征与时间信息，适用于视频。
注意力/Transformer	ViT‑based Saliency、UniAR（统一注意力与评分）	多头自注意力捕获全局依赖，支持多任务。
生成式/扩散模型	CaRDiff（Diffusion + MLLM）	通过大语言模型生成标题/排序，引导显著对象的生成。
认知模型 + 合成数据	EMMA 认知模型 → 合成注视（用于预训练）	将人类注意机制显式建模，提升数据稀缺场景的表现。

5. 常用数据集

数据集	类型	规模	备注
SALICON	静态图像	~10 k 训练图	采用高层语义特征，广泛用于深度模型预训练
MIT300 / MIT1003	静态图像	300 / 1003 张	经典基准，提供高质量注视点标注
DHF1K	视频	1 000 视频（≈58 万帧）	包含 17 位观察者的注视轨迹，是目前最大的视频注视数据集
Hollywood‑2、UCF‑Sports、LEDOV	视频	数百至上千段	用于评估动态显著性模型
CAT2000、CAT2000‑360	静态/全景	2 000+ 图像	包含多种场景、任务标签
MASSVIS、MSCOCO‑EMMA	多模态	通过合成注视扩展	用于跨模态预训练

6. 评价指标

指标	含义	常用场景
AUC‑Judd	ROC 曲线下面积，衡量二分类区分能力	静态/动态均使用
sAUC（shuffle AUC）	排除中心偏置的 AUC	评估模型对真实注视的捕获
CC（Correlation Coefficient）	预测与真实注视密度图的线性相关性	连续密度图评估
NSS（Normalized Scanpath Saliency）	预测图在真实注视点上的标准化得分	关注点精度
SIM（Similarity）	两幅密度图的交叉相似度	整体分布匹配

这些指标在多个基准（如 DHF1K）上被统一报告，帮助对比不同模型的性能。

7. 典型应用

场景	作用
虚拟现实/增强现实渲染	通过预测用户视线提前渲染感兴趣区域，降低计算开销
驾驶安全	预测司机的注视序列，提前预警注意力偏移或分心
人机交互 UI 设计	依据注视热图优化按钮布局、信息层级，提高可用性
广告与营销	评估视觉素材的吸引力，指导创意排版
神经影像学（fMRI）‍	使用 PEER 方法在扫描过程中估计注视，提高实验控制
机器人视觉	让机器人关注人类注视点，实现协同操作与意图推断

8. 主要挑战

语义鸿沟：低层特征难以捕捉高层语义导致预测偏差。
跨模态与任务迁移：不同任务（搜索、驾驶）对注视的驱动因素差异大，模型泛化仍不足。
数据稀缺与标注成本：高质量眼动追踪数据获取成本高，尤其是 360°、VR 场景。
评价偏差：中心偏置、数据集分布不均导致指标误导，需要多指标综合评估。

9. 未来发展趋势

趋势	说明
大语言模型 + 生成式方法	通过 MLLM 生成场景描述或注视排序，引导扩散模型生成更符合语义的显著图
认知模型驱动的合成数据	EMMA 等认知模型可在缺少标注的数据上生成高质量合成注视，用于预训练或跨任务迁移
统一多任务框架	UniAR 等模型同时预测显著性、重要性、用户评分，实现“一站式”视觉注意预测
实时轻量化部署	结合高效 backbone（MobileNet、EfficientNet）与硬件加速，实现移动端/嵌入式实时注视预测
跨感官融合	融合音频、文本、动作等多模态信息，提升在视频、交互式场景中的预测准确性

10. 小结

注视预测是连接认知心理学、计算机视觉与交互技术的关键桥梁。它从最早的特征整合理论发展到如今的深度、生成式、多模态模型，已经在 VR 渲染、驾驶安全、神经科学等多个领域展现价值。尽管仍面临语义鸿沟、数据稀缺和跨任务泛化等挑战，但随着大语言模型、认知生成模型以及统一多任务框架的兴起，注视预测有望在 2025 年以后实现更高的语义理解和实时部署，为人机交互提供更自然、更高效的视觉感知能力。

Fixation Prediction 人眼关注点预测凝视点检测注视点预测注视预测

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！