什么是先验概率偏移（Prior probability shift）

AI解读 4个月前硕雀

68 0 0

先验概率偏移（Prior probability shift）概念
先验概率偏移指的是在分类任务中，类别的整体出现概率（即各类别在总体样本中所占的比例）发生了变化，而条件分布 保持不变。换句话说，特征与标签之间的关系没有改变，但标签本身在新环境中的分布与训练阶段不同。

产生原因

数据采集方式改变：例如原始训练数据是通过随机抽样获得的，而实际使用时可能采用了基于标签的抽样（如只收集了大量垃圾邮件），导致正负样本比例失衡。
样本选择偏差：在医学、金融等领域，往往会有意或无意地对特定人群进行过度采样或欠采样，从而改变了类别比例。
业务场景变化：产品上线后用户行为或需求结构可能与研发阶段不同，例如水果供应链中苹果的进货比例从60 %下降到40 %。

对模型的影响

预测偏差：模型在训练时学习到的决策阈值基于原始的类别比例，若比例改变，模型倾向于高估或低估某些类别的概率，导致误判。
评估指标失真：准确率、召回率等指标在新分布下可能出现显著下降，尤其是对少数类的检测能力受损。

常见案例

垃圾邮件过滤：训练集中垃圾邮件与正常邮件比例为 50 % : 50 %，但实际邮件流中垃圾邮件可能占 80 %，导致模型误报率升高。
医学诊断：在研发阶段使用的疾病阳性样本比例较高，实际临床中疾病的发病率更低，模型的阳性预测会出现过度。

应对策略

重新加权：在训练或推理阶段对样本赋予权重，使得加权后的类别比例与目标环境匹配。
概率校正：利用贝叶斯公式或其他校正方法，根据已知的目标先验概率对模型输出进行调整。
收集新数据：在目标环境中采集少量标注数据，直接估计新的先验分布并用于校正。
迁移学习/自适应：通过微调模型或使用自适应算法，使模型能够在新分布下保持性能。

与其他数据漂移的区别

协变量漂移（Covariate shift）‍：特征分布 改变，而标签条件分布 保持不变。
概念漂移（Concept shift）‍：标签的生成机制 本身改变。
先验概率漂移仅涉及标签的整体比例变化，属于更“轻量级”的漂移类型，但在实际应用中同样会导致显著的性能下降，需要专门的校正手段。

总结
先验概率偏移是指类别出现概率的变化，而特征‑标签关系保持不变。它常因采样方式、业务场景或时间演变而产生，对模型的预测准确性产生负面影响。通过加权、概率校正、收集新数据或迁移学习等方法可以有效缓解这种漂移，确保模型在新环境中仍保持可靠的表现。

Prior probability shift 先验概率偏移

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！