什么是先验概率偏移(Prior probability shift)

AI解读 2小时前 硕雀
3 0

先验概率偏移Prior probability shift)概念
先验概率偏移指的是在分类任务中,类别的整体出现概率(即各类别在总体样本中所占的比例)发生了变化,而条件分布 保持不变。换句话说,特征与标签之间的关系没有改变,但标签本身在新环境中的分布与训练阶段不同。

产生原因

  1. 数据采集方式改变:例如原始训练数据是通过随机抽样获得的,而实际使用时可能采用了基于标签的抽样(如只收集了大量垃圾邮件),导致正负样本比例失衡。
  2. 样本选择偏差:在医学、金融等领域,往往会有意或无意地对特定人群进行过度采样或欠采样,从而改变了类别比例。
  3. 业务场景变化:产品上线后用户行为或需求结构可能与研发阶段不同,例如水果供应链中苹果的进货比例从60 %下降到40 %。

对模型的影响

  • 预测偏差:模型在训练时学习到的决策阈值基于原始的类别比例,若比例改变,模型倾向于高估或低估某些类别的概率,导致误判。
  • 评估指标失真准确率召回率等指标在新分布下可能出现显著下降,尤其是对少数类的检测能力受损。

常见案例

  • 垃圾邮件过滤训练集中垃圾邮件与正常邮件比例为 50 % : 50 %,但实际邮件流中垃圾邮件可能占 80 %,导致模型误报率升高。
  • 医学诊断:在研发阶段使用的疾病阳性样本比例较高,实际临床中疾病的发病率更低,模型的阳性预测会出现过度。

应对策略

  1. 重新加权:在训练或推理阶段对样本赋予权重,使得加权后的类别比例与目标环境匹配。
  2. 概率校正:利用贝叶斯公式或其他校正方法,根据已知的目标先验概率对模型输出进行调整。
  3. 收集新数据:在目标环境中采集少量标注数据,直接估计新的先验分布并用于校正。
  4. 迁移学习/自适应:通过微调模型或使用自适应算法,使模型能够在新分布下保持性能。

与其他数据漂移的区别

  • 协变量漂移(Covariate shift)‍:特征分布 改变,而标签条件分布 保持不变。
  • 概念漂移(Concept shift)‍:标签的生成机制 本身改变。
    先验概率漂移仅涉及标签的整体比例变化,属于更“轻量级”的漂移类型,但在实际应用中同样会导致显著的性能下降,需要专门的校正手段。

总结
先验概率偏移是指类别出现概率的变化,而特征‑标签关系保持不变。它常因采样方式、业务场景或时间演变而产生,对模型的预测准确性产生负面影响。通过加权、概率校正、收集新数据或迁移学习等方法可以有效缓解这种漂移,确保模型在新环境中仍保持可靠的表现。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!