DVAO 实验设计与核心结果

技术研究学术论文强化学习

总结 DVAO 在数学推理和工具调用任务上的实验设置、主表结果、训练动态、Pareto frontier 以及关键图表解读。

1. 实验任务

论文覆盖两类多奖励场景：

场景	Benchmark	奖励目标
数学推理	AIME-2024, AIME-2025, MATH500, OlympiadBench, AMC23	准确率 `r_acc` + 长度约束 `r_length`
工具使用	BFCL-v4 的 Live, Non-Live, Multi-Turn	工具调用正确性 `r_acc` + 格式合规 `r_format`

数学任务中的长度奖励检查输出是否不超过目标长度 l=4000 tokens。工具任务中的格式奖励检查输出结构与字段顺序是否符合要求。

项目	设置
数学模型	Qwen3-4B-Base, Qwen3-8B-Base
工具模型	Qwen2.5-3B-Instruct, Qwen2.5-7B-Instruct
数学训练数据	DAPO-MATH-17K
工具训练数据	ToolACE 2k + Hammer 1k + xLAM 1k
rollout group size	`G=16`
prompt batch size	128
训练步数	500 steps
优化器	AdamW
学习率	`1e-6` constant learning rate
最大生成长度	8192 tokens
数学评估	avg@16，temperature 0.6，top-p 0.95
硬件	8 x NVIDIA H20-3e GPUs + Intel Xeon Platinum 8575C CPU

对比方法包括：

解读：

解读：

论文的 Figure 1 和 Figure 2 展示 Qwen3-4B/8B 的训练动态，包括准确率奖励均值/标准差、长度奖励均值/标准差、平均回复长度。

曲线	论文观察	含义
accuracy reward mean	DVAO 基本保持最高	主任务没有被长度奖励压垮
accuracy reward std	DVAO 最快下降到较低水平	梯度信号更稳定
length reward mean	DVAO 接近 1.0	长度约束被有效满足
length reward std	DVAO 出现明显 variance collapse	长度目标逐渐稳定，不再强烈扰动训练
response length	DVAO 增长更快且有一定震荡	它鼓励更充分推理，但 bounded advantage 防止失控

论文的 Figure 3 展示 accuracy 与 length/format compliance 的 Pareto frontier。DVAO 在数学和工具任务上都占据更靠近右上角的位置，也就是更少牺牲一个目标去换另一个目标。

DVAO 的实验优势主要来自三个机制叠加：