什么是Off‑Policy(离策略)

AI解读 2小时前 硕雀
2 0

Off‑Policy离策略)学习概念概述

  1. 基本定义
    Off‑Policy 指在强化学习过程中,行为策略(behavior policy)‍用于与环境交互生成经验数据,而目标策略(target policy)‍则用于更新价值函数或策略本身。两者不必相同,即学习使用的数据来源于与当前学习目标不同的策略。这种划分的核心在于“学习的目标策略所用到的数据是否由该目标策略本身产生”。如果不是,则属于 Off‑Policy;若相同,则为 On‑Policy
  2. 典型算法
    • Q‑Learning:采用 ε‑greedy 行为策略采样,但在更新时使用 贪婪策略(即目标策略)来选取下一个状态的最大 Q 值,典型的 Off‑Policy 示例。
    • DQN、DDPG、SAC、TD3 等深度离策略算法,同样在采集经验时使用探索策略(如随机噪声或 ε‑greedy),而在网络更新时依据当前的目标策略进行价值或策略的梯度计算。
    • Off‑Policy Actor‑Critic(如 DPG、DDPG)通过 重要性采样(importance sampling)‍ 将行为策略的分布校正到目标策略,以实现无偏估计。
  3. 优势
    • 样本利用率高:可以复用历史数据、离线数据或其他智能体的经验,减少对真实环境的交互次数,提升学习效率。
    • 安全性与可扩展性:在安全关键或成本高的场景(如工业控制、机器人)中,可先在仿真或已有日志上离线训练,再部署到真实系统,降低风险。
  4. 挑战与技术手段
    • 分布偏移(distribution mismatch)‍:行为策略与目标策略的分布差异会导致估计偏差,常用 重要性采样权重(π_target/π_behavior)进行校正,但在行为概率极小的情况下会产生高方差。
    • 方差控制:为降低重要性采样的方差,研究提出 自规范化 IPS、双重稳健估计、加权回放缓冲 等改进方法。
    • 函数逼近的发散风险:在使用函数逼近(如深度网络)时,Off‑Policy 与 bootstrapping函数逼近 三者的组合容易导致发散,需要采用 Gradient‑TD、Emphatic‑TD 等稳定化技术。
  5. 应用场景
    • 离线强化学习:利用大规模历史日志(如推荐系统、广告投放)直接学习最优策略。
    • 机器人与自动驾驶:先在仿真环境或已有轨迹上离线训练,再在真实车辆上微调。
    • 游戏 AI:如 AlphaGoOpenAI Five 等使用离策略方法从人类对局或自我对局数据中学习。
  6. 常见的概念对比(帮助直观理解)
    • On‑Policy:行为策略 = 目标策略,学习只能使用当前策略产生的数据(如 SARSA、PPO)。
    • Off‑Policy:行为策略 ≠ 目标策略,学习可以利用其他策略或历史数据(如 Q‑Learning、DQN)。
    • 行为策略 常被称为 exploration policy,目标策略则是 exploitation policy,两者的分离是 Off‑Policy 的核心特征。

小结
Off‑Policy 学习通过解耦数据采集与策略更新,实现了更高的样本效率和更大的灵活性,成为现代强化学习(尤其是深度强化学习)中最常用的范式之一。但它也带来了分布偏移和方差控制等技术挑战,需要借助重要性采样、经验回放、稳健估计等方法加以克服。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!