DVAO 实验设计与核心结果
技术研究 学术论文 强化学习
总结 DVAO 在数学推理和工具调用任务上的实验设置、主表结果、训练动态、Pareto frontier 以及关键图表解读。
1. 实验任务
论文覆盖两类多奖励场景:
| 场景 | Benchmark | 奖励目标 |
|---|---|---|
| 数学推理 | AIME-2024, AIME-2025, MATH500, OlympiadBench, AMC23 | 准确率 r_acc + 长度约束 r_length |
| 工具使用 | BFCL-v4 的 Live, Non-Live, Multi-Turn | 工具调用正确性 r_acc + 格式合规 r_format |
数学任务中的长度奖励检查输出是否不超过目标长度 l=4000 tokens。工具任务中的格式奖励检查输出结构与字段顺序是否符合要求。
2. 模型与训练设置
| 项目 | 设置 |
|---|---|
| 数学模型 | Qwen3-4B-Base, Qwen3-8B-Base |
| 工具模型 | Qwen2.5-3B-Instruct, Qwen2.5-7B-Instruct |
| 数学训练数据 | DAPO-MATH-17K |
| 工具训练数据 | ToolACE 2k + Hammer 1k + xLAM 1k |
| rollout group size | G=16 |
| prompt batch size | 128 |
| 训练步数 | 500 steps |
| 优化器 | AdamW |
| 学习率 | 1e-6 constant learning rate |
| 最大生成长度 | 8192 tokens |
| 数学评估 | avg@16,temperature 0.6,top-p 0.95 |
| 硬件 | 8 x NVIDIA H20-3e GPUs + Intel Xeon Platinum 8575C CPU |
对比方法包括:
- 原始模型。
- 单奖励 GRPO,只优化准确率。
- Reward Combination(RC)。
- Advantage Combination(AC)。
- GDPO。
- DVAO。
3. 数学推理结果
Qwen3-4B-Base
| 方法 | 平均准确率 | 平均长度合规 |
|---|---|---|
| Model | 25.78 | 90.41 |
| + GRPO | 39.91 | 77.84 |
| + RC | 38.99 | 96.39 |
| + AC | 38.75 | 96.23 |
| + GDPO | 13.41 | 97.81 |
| + DVAO | 42.19 | 99.91 |
Qwen3-8B-Base
| 方法 | 平均准确率 | 平均长度合规 |
|---|---|---|
| Model | 33.31 | 94.28 |
| + GRPO | 52.57 | 63.47 |
| + RC | 46.26 | 98.71 |
| + AC | 45.42 | 98.84 |
| + GDPO | 14.69 | 99.99 |
| + DVAO | 47.49 | 99.92 |
解读:
- 单奖励 GRPO 提高准确率,但严重牺牲长度合规,尤其在 8B 上长度合规从 94.28 降到 63.47。
- RC/AC 把长度合规拉回接近 99,但准确率低于 DVAO。
- GDPO 的长度合规接近满分,但准确率大幅崩塌,说明它可能过度优化辅助约束。
- DVAO 在 4B 上同时拿到最高准确率与最高长度合规;在 8B 上长度合规略低于 GDPO,但准确率高出 32.80 个百分点。
4. 工具调用结果
Qwen2.5-3B-Instruct
| 方法 | 平均准确率 | 平均格式合规 |
|---|---|---|
| Model | 36.10 | 5.66 |
| + GRPO | 36.56 | 5.61 |
| + RC | 51.02 | 60.48 |
| + AC | 53.47 | 64.69 |
| + GDPO | 52.73 | 65.88 |
| + DVAO | 56.66 | 76.65 |
Qwen2.5-7B-Instruct
| 方法 | 平均准确率 | 平均格式合规 |
|---|---|---|
| Model | 47.83 | 0.00 |
| + GRPO | 52.26 | 0.00 |
| + RC | 58.38 | 76.42 |
| + AC | 44.25 | 68.04 |
| + GDPO | 60.13 | 68.12 |
| + DVAO | 63.00 | 79.21 |
解读:
- 工具任务最能体现多奖励训练的必要性:只优化准确率的 GRPO 几乎无法修复格式合规。
- DVAO 在两个模型尺度上都拿到最高平均准确率和最高平均格式合规。
- 7B 上 AC 的准确率低于原始模型,说明固定 advantage 权重在复杂工具任务中可能带来负迁移。
5. 关键图表解读
论文的 Figure 1 和 Figure 2 展示 Qwen3-4B/8B 的训练动态,包括准确率奖励均值/标准差、长度奖励均值/标准差、平均回复长度。
| 曲线 | 论文观察 | 含义 |
|---|---|---|
| accuracy reward mean | DVAO 基本保持最高 | 主任务没有被长度奖励压垮 |
| accuracy reward std | DVAO 最快下降到较低水平 | 梯度信号更稳定 |
| length reward mean | DVAO 接近 1.0 | 长度约束被有效满足 |
| length reward std | DVAO 出现明显 variance collapse | 长度目标逐渐稳定,不再强烈扰动训练 |
| response length | DVAO 增长更快且有一定震荡 | 它鼓励更充分推理,但 bounded advantage 防止失控 |
论文的 Figure 3 展示 accuracy 与 length/format compliance 的 Pareto frontier。DVAO 在数学和工具任务上都占据更靠近右上角的位置,也就是更少牺牲一个目标去换另一个目标。
6. 结果背后的机制判断
DVAO 的实验优势主要来自三个机制叠加:
- 主任务不被辅助约束吞掉:低质量固定权重方法容易让长度或格式这种更容易优化的目标主导训练。
- 辅助约束不是事后补丁:DVAO 不只是先训练准确率再修格式,而是在每步 advantage 组合中同时考虑它们。
- 方差充当学习信号强度估计:当某个 reward 在 group 内可以区分好坏样本时,它对当前更新更有价值;当它趋于饱和时,权重自然下降。