DVAO 方法论详解:从固定标量化到动态方差权重
拆解 DVAO 的数学定义、算法流程、关键公式、理论命题和与 Reward Combination、Advantage Combination 的本质差异。
1. 多奖励 GRPO 的基本设定
对输入 x_i,策略模型 pi_theta 采样 G 条 rollout:y_1 ... y_G。在多奖励场景下,每条回答会得到 n 个 reward:
例如数学推理任务中可以有:
r_acc:答案是否正确。r_length:输出是否不超过目标长度。
工具调用任务中可以有:
r_acc:工具调用是否语义正确。r_format:输出格式是否符合规定结构。
2. 两个 baseline 的问题
2.1 Reward Combination
Reward Combination 先把原始 reward 加权求和:
然后在 rollout group 内做标准化得到总 advantage:
A_\text{sum}^{(i,j)} = \frac{r_\text{sum}^{(i,j)} - \operatorname{mean}(\{r_\text{sum}^{(i,j)}\}_{j=1}^G)} \operatorname{std}(\{r_\text{sum}^{(i,j)}\}_{j=1}^G)}优点是简单,能保留 reward 间相关性;问题是组合后的标准差可能较小,分母变小会把 advantage 放大,导致 policy gradient 更新过猛。
2.2 Advantage Combination
Advantage Combination 先对每个 reward 单独标准化:
A_k^{(i,j)} = \frac{r_k^{(i,j)} - \operatorname{mean}(\{r_k^{(i,j)}\}_{j=1}^G)} \operatorname{std}(\{r_k^{(i,j)}\}_{j=1}^G)}再固定加权:
这能缓解幅度爆炸,但代价是每个目标先被独立归一化,最后再用静态权重拼起来。它更像把多个独立 RL objective 做线性相加,而不是建模“这些目标在这组 rollout 里如何共同解释好坏”。
3. DVAO 的核心公式
DVAO 保留每个 reward 的独立 advantage,但把固定权重换成方差自适应权重:
其中:
最终 advantage 为:
直观理解:
- 如果某个 reward 在当前 group 内有更大方差,说明它更能区分当前样本的好坏,因此权重上升。
- 如果某个 reward 基本没有变化,说明它可能已经饱和、不可区分或评价噪声不足以形成学习信号,因此权重下降。
- 这不是全局固定权重,而是对每个 prompt 的 rollout group 动态计算。
4. 算法流程图
flowchart TD
A[输入 prompt x_i] --> B[策略模型采样 G 条 rollout]
B --> C[计算多个奖励 r_acc r_length r_format 等]
C --> D[每个奖励通道做 group normalization]
C --> E[估计每个奖励通道的 group 标准差 sigma_k]
D --> F[得到单通道 advantage A_k]
E --> G[计算动态权重 w_tilde_k]
F --> H[组合为 A_DVAO]
G --> H
H --> I[代入 GRPO clipped objective]
I --> J[更新策略模型]
这个流程说明 DVAO 的侵入点很小:它不替换 GRPO 主目标,也不改 rollout 或 verifier,只改“多奖励 advantage 如何合成”。
5. 三个理论命题的含义
命题 1:Reward Combination 的 advantage 平方均值更大
论文证明,在固定 query 的 rollout group 内:
当所有奖励通道完全正相关时取等号。
解释:Reward Combination 的优势信号更容易放大;放大不一定是好事,因为策略梯度与 advantage 成比例,过大的 advantage 会带来不稳定更新。
命题 2:DVAO 的点态幅度受 Reward Combination 上界约束
论文进一步证明:
当所有 reward pair 在 rollout group 内完全正相关时取等号。
解释:DVAO 试图保留 Reward Combination 对跨目标关系的关注,但避免它的幅度失控。这个命题是论文“稳定性”主张的核心支撑。
命题 3:DVAO 的敏感性包含跨目标交互项
Advantage Combination 对第 k 个 reward 的敏感性是:
DVAO 的对应项是:
区别在最后一项:
- AC 使用
(A_k)^2,只看第k个目标自己的 isolated advantage。 - DVAO 使用
A_DVAO * A_k,把单目标表现和整体多目标表现耦合起来。
解释:这就是论文所说的 implicit cross-objective regularization。某个 reward 通道是否应该强推,不只由它自己决定,也由它与整体多目标 advantage 的一致性决定。
6. 与现有方法的差异
| 方法 | 权重是否动态 | 是否单独标准化 reward | 是否考虑跨目标交互 | 主要风险 |
|---|---|---|---|---|
| GRPO 单奖励 | 否 | 不适用 | 否 | 无法处理辅助约束 |
| Reward Combination | 否 | 否 | 部分保留 | advantage 幅度可能过大 |
| Advantage Combination | 否 | 是 | 弱 | 静态权重、目标隔离 |
| GDPO | 否 | 是 | 弱 | 可能牺牲主任务准确率 |
| DVAO | 是 | 是 | 是 | 方差估计可能受 group size 和 reward 噪声影响 |