什么是缩放余弦误差(Scaled Cosine Error,简称 SCE)

AI解读 13分钟前 硕雀
2 0

缩放余弦误差Scaled Cosine Error,简称 SCE)概述

  1. 核心思想
    • SCE 通过比较原始特征向量与重建向量之间的方向差异来衡量重构质量。它先把两个向量都映射到单位球面上,从而消除向量长度的影响,只关注它们的夹角大小。
    • 为了让模型更关注难以重建的样本,SCE 在计算后会根据一个可调的“缩放因子”对误差进行幂次放大。该因子越大,误差在容易样本上的衰减越快,类似于焦点损失(Focal Loss)对易样本的降权效果。
  2. 为什么引入 SCE
    • 维度无关:传统的均方误差MSE)受特征维度和数值尺度影响,导致训练不稳定。余弦误差通过归一化消除了这些因素,使得不同维度的特征可以在同一尺度上比较。
    • 提升选择性:在自监督图编码器(如 GraphMAE)中,直接使用余弦误差已经能改善训练,但仍会受到大量易学习样本的干扰。加入缩放后,模型对高置信度、误差小的预测快速趋近于零,从而把学习重点放在更具挑战性的样本上。
    • 自适应样本权重:缩放过程相当于对每个样本的权重进行动态调整,误差大的样本获得更大权重,误差小的样本权重被抑制,这有助于加速收敛并提升最终的表示质量。
  3. 典型应用场景
    • 自编码器:在 GraphMAE 等基于掩码的图自监督学习框架中,SCE 被用作重建损失,帮助模型在不依赖数据增强的情况下获得与对比学习相当甚至更好的表征。
    • 空间转录组批次校正:SpaBatch 等空间转录组分析方法也采用 SCE 作为目标函数,以调节模型对不同批次误差的敏感度,提升批次校正效果。
    • 其他深度学习任务:任何需要对向量重建进行度量且希望抑制向量模长影响的任务,都可以考虑使用 SCE 代替传统的 L2 损失。
  4. 关键超参数
    • 缩放因子(γ)‍:这是一个大于等于 1 的超参数,用来控制误差的幂次放大程度。γ 越大,模型对大误差的关注越强,对小误差的抑制越明显。不同数据集和任务可以通过交叉验证来选取合适的 γ 值。
  5. 优势总结
    • 不受向量尺度影响,训练更稳健
    • 通过幂次缩放实现对易样本的自动降权,提升学习效率
    • 可视为自适应的样本权重机制,兼具余弦误差的方向性度量和焦点损失的难易样本区分
    • 已在图自监督学习、空间转录组批次校正等前沿研究中验证有效

简而言之,缩放余弦误差是一种先对特征向量进行方向归一化、再通过可调幂次放大来强化难样本贡献的损失函数,能够在保持尺度不变性的同时提升模型对关键样本的学习选择性。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!