Logo
热心市民王先生

DVAO 方法论详解:从固定标量化到动态方差权重

技术研究 学术论文 强化学习

拆解 DVAO 的数学定义、算法流程、关键公式、理论命题和与 Reward Combination、Advantage Combination 的本质差异。

1. 多奖励 GRPO 的基本设定

对输入 x_i,策略模型 pi_theta 采样 G 条 rollout:y_1 ... y_G。在多奖励场景下,每条回答会得到 n 个 reward:

rk(i,j)=rk(xi,yj)[0,1],k=1,,nr_k^{(i,j)} = r_k(x_i, y_j) \in [0,1], \quad k=1,\dots,n

例如数学推理任务中可以有:

  • r_acc:答案是否正确。
  • r_length:输出是否不超过目标长度。

工具调用任务中可以有:

  • r_acc:工具调用是否语义正确。
  • r_format:输出格式是否符合规定结构。

2. 两个 baseline 的问题

2.1 Reward Combination

Reward Combination 先把原始 reward 加权求和:

rsum(i,j)=kwkrk(i,j),kwk=1r_\text{sum}^{(i,j)} = \sum_k w_k r_k^{(i,j)}, \quad \sum_k w_k = 1

然后在 rollout group 内做标准化得到总 advantage:

A_\text{sum}^{(i,j)} = \frac{r_\text{sum}^{(i,j)} - \operatorname{mean}(\{r_\text{sum}^{(i,j)}\}_{j=1}^G)} \operatorname{std}(\{r_\text{sum}^{(i,j)}\}_{j=1}^G)}

优点是简单,能保留 reward 间相关性;问题是组合后的标准差可能较小,分母变小会把 advantage 放大,导致 policy gradient 更新过猛。

2.2 Advantage Combination

Advantage Combination 先对每个 reward 单独标准化:

A_k^{(i,j)} = \frac{r_k^{(i,j)} - \operatorname{mean}(\{r_k^{(i,j)}\}_{j=1}^G)} \operatorname{std}(\{r_k^{(i,j)}\}_{j=1}^G)}

再固定加权:

A(i,j)=kwkAk(i,j)A^{(i,j)} = \sum_k w_k A_k^{(i,j)}

这能缓解幅度爆炸,但代价是每个目标先被独立归一化,最后再用静态权重拼起来。它更像把多个独立 RL objective 做线性相加,而不是建模“这些目标在这组 rollout 里如何共同解释好坏”。

3. DVAO 的核心公式

DVAO 保留每个 reward 的独立 advantage,但把固定权重换成方差自适应权重:

w~k=wkσkilwlσli\tilde{w}_k = \frac{w_k \sigma_k^i}{\sum_l w_l \sigma_l^i}

其中:

σki=std({rk(i,j)}j=1G)\sigma_k^i = \operatorname{std}(\{r_k^{(i,j)}\}_{j=1}^G)

最终 advantage 为:

ADVAO(i,j)=kw~kAk(i,j)=kwkσkiAk(i,j)lwlσliA_\text{DVAO}^{(i,j)} = \sum_k \tilde{w}_k A_k^{(i,j)} = \frac{\sum_k w_k \sigma_k^i A_k^{(i,j)}}{\sum_l w_l \sigma_l^i}

直观理解:

  • 如果某个 reward 在当前 group 内有更大方差,说明它更能区分当前样本的好坏,因此权重上升。
  • 如果某个 reward 基本没有变化,说明它可能已经饱和、不可区分或评价噪声不足以形成学习信号,因此权重下降。
  • 这不是全局固定权重,而是对每个 prompt 的 rollout group 动态计算。

4. 算法流程图

flowchart TD
    A[输入 prompt x_i] --> B[策略模型采样 G 条 rollout]
    B --> C[计算多个奖励 r_acc r_length r_format 等]
    C --> D[每个奖励通道做 group normalization]
    C --> E[估计每个奖励通道的 group 标准差 sigma_k]
    D --> F[得到单通道 advantage A_k]
    E --> G[计算动态权重 w_tilde_k]
    F --> H[组合为 A_DVAO]
    G --> H
    H --> I[代入 GRPO clipped objective]
    I --> J[更新策略模型]

这个流程说明 DVAO 的侵入点很小:它不替换 GRPO 主目标,也不改 rollout 或 verifier,只改“多奖励 advantage 如何合成”。

5. 三个理论命题的含义

命题 1:Reward Combination 的 advantage 平方均值更大

论文证明,在固定 query 的 rollout group 内:

1Gj=1G(Asum(i,j))21Gj=1G(A(i,j))2\frac{1}{G}\sum_{j=1}^G(A_\text{sum}^{(i,j)})^2 \ge \frac{1}{G}\sum_{j=1}^G(A^{(i,j)})^2

当所有奖励通道完全正相关时取等号。

解释:Reward Combination 的优势信号更容易放大;放大不一定是好事,因为策略梯度与 advantage 成比例,过大的 advantage 会带来不稳定更新。

命题 2:DVAO 的点态幅度受 Reward Combination 上界约束

论文进一步证明:

ADVAO(i,j)Asum(i,j)|A_\text{DVAO}^{(i,j)}| \le |A_\text{sum}^{(i,j)}|

当所有 reward pair 在 rollout group 内完全正相关时取等号。

解释:DVAO 试图保留 Reward Combination 对跨目标关系的关注,但避免它的幅度失控。这个命题是论文“稳定性”主张的核心支撑。

命题 3:DVAO 的敏感性包含跨目标交互项

Advantage Combination 对第 k 个 reward 的敏感性是:

A(i,j)rk(i,j)=wkσki(11G1G(Ak(i,j))2)\frac{\partial A^{(i,j)}}{\partial r_k^{(i,j)}} = \frac{w_k}{\sigma_k^i} \left(1-\frac{1}{G}-\frac{1}{G}(A_k^{(i,j)})^2\right)

DVAO 的对应项是:

ADVAO(i,j)rk(i,j)=w~kσki(11G1GADVAO(i,j)Ak(i,j))\frac{\partial A_\text{DVAO}^{(i,j)}}{\partial r_k^{(i,j)}} = \frac{\tilde{w}_k}{\sigma_k^i} \left(1-\frac{1}{G}-\frac{1}{G}A_\text{DVAO}^{(i,j)}A_k^{(i,j)}\right)

区别在最后一项:

  • AC 使用 (A_k)^2,只看第 k 个目标自己的 isolated advantage。
  • DVAO 使用 A_DVAO * A_k,把单目标表现和整体多目标表现耦合起来。

解释:这就是论文所说的 implicit cross-objective regularization。某个 reward 通道是否应该强推,不只由它自己决定,也由它与整体多目标 advantage 的一致性决定。

6. 与现有方法的差异

方法权重是否动态是否单独标准化 reward是否考虑跨目标交互主要风险
GRPO 单奖励不适用无法处理辅助约束
Reward Combination部分保留advantage 幅度可能过大
Advantage Combination静态权重、目标隔离
GDPO可能牺牲主任务准确率
DVAO方差估计可能受 group size 和 reward 噪声影响