Logo
热心市民王先生

DVAO 实验设计与核心结果

技术研究 学术论文 强化学习

总结 DVAO 在数学推理和工具调用任务上的实验设置、主表结果、训练动态、Pareto frontier 以及关键图表解读。

1. 实验任务

论文覆盖两类多奖励场景:

场景Benchmark奖励目标
数学推理AIME-2024, AIME-2025, MATH500, OlympiadBench, AMC23准确率 r_acc + 长度约束 r_length
工具使用BFCL-v4 的 Live, Non-Live, Multi-Turn工具调用正确性 r_acc + 格式合规 r_format

数学任务中的长度奖励检查输出是否不超过目标长度 l=4000 tokens。工具任务中的格式奖励检查输出结构与字段顺序是否符合要求。

2. 模型与训练设置

项目设置
数学模型Qwen3-4B-Base, Qwen3-8B-Base
工具模型Qwen2.5-3B-Instruct, Qwen2.5-7B-Instruct
数学训练数据DAPO-MATH-17K
工具训练数据ToolACE 2k + Hammer 1k + xLAM 1k
rollout group sizeG=16
prompt batch size128
训练步数500 steps
优化器AdamW
学习率1e-6 constant learning rate
最大生成长度8192 tokens
数学评估avg@16,temperature 0.6,top-p 0.95
硬件8 x NVIDIA H20-3e GPUs + Intel Xeon Platinum 8575C CPU

对比方法包括:

  • 原始模型。
  • 单奖励 GRPO,只优化准确率。
  • Reward Combination(RC)。
  • Advantage Combination(AC)。
  • GDPO。
  • DVAO。

3. 数学推理结果

Qwen3-4B-Base

方法平均准确率平均长度合规
Model25.7890.41
+ GRPO39.9177.84
+ RC38.9996.39
+ AC38.7596.23
+ GDPO13.4197.81
+ DVAO42.1999.91

Qwen3-8B-Base

方法平均准确率平均长度合规
Model33.3194.28
+ GRPO52.5763.47
+ RC46.2698.71
+ AC45.4298.84
+ GDPO14.6999.99
+ DVAO47.4999.92

解读

  • 单奖励 GRPO 提高准确率,但严重牺牲长度合规,尤其在 8B 上长度合规从 94.28 降到 63.47。
  • RC/AC 把长度合规拉回接近 99,但准确率低于 DVAO。
  • GDPO 的长度合规接近满分,但准确率大幅崩塌,说明它可能过度优化辅助约束。
  • DVAO 在 4B 上同时拿到最高准确率与最高长度合规;在 8B 上长度合规略低于 GDPO,但准确率高出 32.80 个百分点。

4. 工具调用结果

Qwen2.5-3B-Instruct

方法平均准确率平均格式合规
Model36.105.66
+ GRPO36.565.61
+ RC51.0260.48
+ AC53.4764.69
+ GDPO52.7365.88
+ DVAO56.6676.65

Qwen2.5-7B-Instruct

方法平均准确率平均格式合规
Model47.830.00
+ GRPO52.260.00
+ RC58.3876.42
+ AC44.2568.04
+ GDPO60.1368.12
+ DVAO63.0079.21

解读

  • 工具任务最能体现多奖励训练的必要性:只优化准确率的 GRPO 几乎无法修复格式合规。
  • DVAO 在两个模型尺度上都拿到最高平均准确率和最高平均格式合规。
  • 7B 上 AC 的准确率低于原始模型,说明固定 advantage 权重在复杂工具任务中可能带来负迁移。

5. 关键图表解读

论文的 Figure 1 和 Figure 2 展示 Qwen3-4B/8B 的训练动态,包括准确率奖励均值/标准差、长度奖励均值/标准差、平均回复长度。

曲线论文观察含义
accuracy reward meanDVAO 基本保持最高主任务没有被长度奖励压垮
accuracy reward stdDVAO 最快下降到较低水平梯度信号更稳定
length reward meanDVAO 接近 1.0长度约束被有效满足
length reward stdDVAO 出现明显 variance collapse长度目标逐渐稳定,不再强烈扰动训练
response lengthDVAO 增长更快且有一定震荡它鼓励更充分推理,但 bounded advantage 防止失控

论文的 Figure 3 展示 accuracy 与 length/format compliance 的 Pareto frontier。DVAO 在数学和工具任务上都占据更靠近右上角的位置,也就是更少牺牲一个目标去换另一个目标。

6. 结果背后的机制判断

DVAO 的实验优势主要来自三个机制叠加:

  1. 主任务不被辅助约束吞掉:低质量固定权重方法容易让长度或格式这种更容易优化的目标主导训练。
  2. 辅助约束不是事后补丁:DVAO 不只是先训练准确率再修格式,而是在每步 advantage 组合中同时考虑它们。
  3. 方差充当学习信号强度估计:当某个 reward 在 group 内可以区分好坏样本时,它对当前更新更有价值;当它趋于饱和时,权重自然下降。