DVAO 方法论详解：从固定标量化到动态方差权重

技术研究学术论文强化学习

拆解 DVAO 的数学定义、算法流程、关键公式、理论命题和与 Reward Combination、Advantage Combination 的本质差异。

1. 多奖励 GRPO 的基本设定

对输入 x_i，策略模型 pi_theta 采样 G 条 rollout：y_1 ... y_G。在多奖励场景下，每条回答会得到 n 个 reward：

r_k^{(i,j)} = r_k(x_i, y_j) \in [0,1], \quad k=1,\dots,n

例如数学推理任务中可以有：

r_acc：答案是否正确。
r_length：输出是否不超过目标长度。

工具调用任务中可以有：

r_acc：工具调用是否语义正确。
r_format：输出格式是否符合规定结构。

2. 两个 baseline 的问题

2.1 Reward Combination

Reward Combination 先把原始 reward 加权求和：

r_\text{sum}^{(i,j)} = \sum_k w_k r_k^{(i,j)}, \quad \sum_k w_k = 1

然后在 rollout group 内做标准化得到总 advantage：

A_\text{sum}^{(i,j)} = \frac{r_\text{sum}^{(i,j)} - \operatorname{mean}(\{r_\text{sum}^{(i,j)}\}_{j=1}^G)} \operatorname{std}(\{r_\text{sum}^{(i,j)}\}_{j=1}^G)}

优点是简单，能保留 reward 间相关性；问题是组合后的标准差可能较小，分母变小会把 advantage 放大，导致 policy gradient 更新过猛。

2.2 Advantage Combination

Advantage Combination 先对每个 reward 单独标准化：

A_k^{(i,j)} = \frac{r_k^{(i,j)} - \operatorname{mean}(\{r_k^{(i,j)}\}_{j=1}^G)} \operatorname{std}(\{r_k^{(i,j)}\}_{j=1}^G)}

再固定加权：

A^{(i,j)} = \sum_k w_k A_k^{(i,j)}

这能缓解幅度爆炸，但代价是每个目标先被独立归一化，最后再用静态权重拼起来。它更像把多个独立 RL objective 做线性相加，而不是建模“这些目标在这组 rollout 里如何共同解释好坏”。

3. DVAO 的核心公式

DVAO 保留每个 reward 的独立 advantage，但把固定权重换成方差自适应权重：

\tilde{w}_k = \frac{w_k \sigma_k^i}{\sum_l w_l \sigma_l^i}

其中：

\sigma_k^i = \operatorname{std}(\{r_k^{(i,j)}\}_{j=1}^G)

最终 advantage 为：

A_\text{DVAO}^{(i,j)} = \sum_k \tilde{w}_k A_k^{(i,j)} = \frac{\sum_k w_k \sigma_k^i A_k^{(i,j)}}{\sum_l w_l \sigma_l^i}

直观理解：

如果某个 reward 在当前 group 内有更大方差，说明它更能区分当前样本的好坏，因此权重上升。
如果某个 reward 基本没有变化，说明它可能已经饱和、不可区分或评价噪声不足以形成学习信号，因此权重下降。
这不是全局固定权重，而是对每个 prompt 的 rollout group 动态计算。

4. 算法流程图

flowchart TD
    A[输入 prompt x_i] --> B[策略模型采样 G 条 rollout]
    B --> C[计算多个奖励 r_acc r_length r_format 等]
    C --> D[每个奖励通道做 group normalization]
    C --> E[估计每个奖励通道的 group 标准差 sigma_k]
    D --> F[得到单通道 advantage A_k]
    E --> G[计算动态权重 w_tilde_k]
    F --> H[组合为 A_DVAO]
    G --> H
    H --> I[代入 GRPO clipped objective]
    I --> J[更新策略模型]

这个流程说明 DVAO 的侵入点很小：它不替换 GRPO 主目标，也不改 rollout 或 verifier，只改“多奖励 advantage 如何合成”。

5. 三个理论命题的含义

命题 1：Reward Combination 的 advantage 平方均值更大

论文证明，在固定 query 的 rollout group 内：

\frac{1}{G}\sum_{j=1}^G(A_\text{sum}^{(i,j)})^2 \ge \frac{1}{G}\sum_{j=1}^G(A^{(i,j)})^2

当所有奖励通道完全正相关时取等号。

解释：Reward Combination 的优势信号更容易放大；放大不一定是好事，因为策略梯度与 advantage 成比例，过大的 advantage 会带来不稳定更新。

命题 2：DVAO 的点态幅度受 Reward Combination 上界约束

论文进一步证明：

|A_\text{DVAO}^{(i,j)}| \le |A_\text{sum}^{(i,j)}|

当所有 reward pair 在 rollout group 内完全正相关时取等号。

解释：DVAO 试图保留 Reward Combination 对跨目标关系的关注，但避免它的幅度失控。这个命题是论文“稳定性”主张的核心支撑。

命题 3：DVAO 的敏感性包含跨目标交互项

Advantage Combination 对第 k 个 reward 的敏感性是：

\frac{\partial A^{(i,j)}}{\partial r_k^{(i,j)}} = \frac{w_k}{\sigma_k^i} \left(1-\frac{1}{G}-\frac{1}{G}(A_k^{(i,j)})^2\right)

DVAO 的对应项是：

\frac{\partial A_\text{DVAO}^{(i,j)}}{\partial r_k^{(i,j)}} = \frac{\tilde{w}_k}{\sigma_k^i} \left(1-\frac{1}{G}-\frac{1}{G}A_\text{DVAO}^{(i,j)}A_k^{(i,j)}\right)

区别在最后一项：

AC 使用 (A_k)^2，只看第 k 个目标自己的 isolated advantage。
DVAO 使用 A_DVAO * A_k，把单目标表现和整体多目标表现耦合起来。

解释：这就是论文所说的 implicit cross-objective regularization。某个 reward 通道是否应该强推，不只由它自己决定，也由它与整体多目标 advantage 的一致性决定。

6. 与现有方法的差异

方法	权重是否动态	是否单独标准化 reward	是否考虑跨目标交互	主要风险
GRPO 单奖励	否	不适用	否	无法处理辅助约束
Reward Combination	否	否	部分保留	advantage 幅度可能过大
Advantage Combination	否	是	弱	静态权重、目标隔离
GDPO	否	是	弱	可能牺牲主任务准确率
DVAO	是	是	是	方差估计可能受 group size 和 reward 噪声影响