什么是BN-GSPO算法

AI解读 2个月前硕雀

23 0 0

BN-GSPO（Batch-Normalized Group Sequence Policy Optimization）是一种针对强化学习（RL）阶段优化的改进算法，主要用于提升多模态自主推理模型（如 SenseNova-MARS）在处理复杂任务时的训练稳定性和性能表现。

以下是关于 BN-GSPO 算法的详细介绍：

BN-GSPO 是在标准 GSPO（Group Sequence Policy Optimization）算法基础上的增强版。它的主要目的是解决在多工具协作和复杂推理任务中，模型奖励信号分布不一致、训练波动过大的问题。

核心功能：通过批量归一化（Batch Normalization）技术，平滑强化学习阶段的奖励信号分布，避免模型在面对不同难度（简单 vs 复杂）任务时出现“偏科”或性能波动过大的现象。

BN-GSPO 通过引入 批量归一化（Batch Normalization）技术，对强化学习中的奖励信号进行统一处理，具体机制如下：

奖励归一化：在计算梯度和更新模型参数之前，对当前批次（Batch）的奖励信号进行标准化处理。这样，无论是简单任务还是高难度任务，奖励信号的尺度（Scale）都保持一致，从而防止模型在训练时对某一类任务过度适应而忽视另一类任务。
序列级优化：不同于传统强化学习对每一步（Token）的独立优化，BN-GSPO 关注序列（Sequence）级的整体奖励。这意味着它不仅关注单个决策的正确性，更关注一整套工具调用和推理步骤的连贯性和有效性。

GSPO（Group Sequence Policy Optimization）是原始算法，BN-GSPO 是其增强版本。

GSPO：主要通过序列层面的奖励裁剪（Clip）和优化来提升训练效率，解决传统 RL 中的高方差问题。
BN-GSPO：在 GSPO 的基础上，增加了批量归一化（Batch Normalization）‍步骤。这一步骤至关重要，因为它解决了在多模态任务中，不同类型轨迹（Trajectory）或奖励幅度差异过大导致的训练不稳定问题。

BN-GSPO 算法主要应用于多模态智能体（Multimodal Agent）‍的训练阶段，特别是在需要调用外部工具（如搜索引擎、计算器、代码解释器等）解决问题的模型中。

SenseNova-MARS：这是一个开源的多模态自主推理模型。该模型使用 BN-GSPO 来训练其“因材施教”的推理能力，确保在面对包含视觉、语言、搜索等多步骤任务时，能够有效规划并调用工具。
ChatGLM4：同样也采用了该算法来提升其工具调用的准确性和推理的鲁棒性。

引入 BN-GSPO 算法后，模型在多个复杂基准测试中的表现均有显著提升。

BN-GSPO（批归一化组序列策略优化）是一种针对多模态强化学习任务的高级优化算法。它通过对奖励信号进行批量归一化处理，显著提升了模型在复杂环境下的训练稳定性和推理能力，解决了传统 RL 方法在处理高维度、多工具协作任务时面临的“偏科”问题。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！