Logo
热心市民王先生

DVAO 论文深度解读:多奖励强化学习中的动态方差自适应优势优化

技术研究 学术论文 强化学习

基于 Hugging Face Papers 2026-05-26 顶部论文 DVAO,系统解读其多奖励 GRPO 标量化问题、动态方差权重、实验结果、局限性与应用价值。

自动研究时间:2026-05-27 09:00(Asia/Shanghai) 来源流程:Hugging Face Papers 顶部论文 → Hugging Face 详情页 → arXiv 页面 → arXiv PDF/TeX 源码交叉核对 当前 Hugging Face Papers 最新列表显示日期:May 26

执行摘要

Hugging Face Papers 当前 Daily Papers 列表的最顶部论文是 DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning,详情页标注为 #1 Paper of the day。论文对应 arXiv:2605.25604,于 2026-05-25 提交,Hugging Face 页面显示 2026-05-25 发布、2026-05-26 提交到 HF Papers。作者为 Guochao Jiang、Jingyi Song、Guofeng Quan、Chuzhan Hao、Guohua Liu、Yuewei Zhang,论文源码标注机构为 Alibaba Cloud Computing。

论文解决的是 LLM 强化学习后训练中的一个现实问题:生产系统通常不只优化“答对”,还要同时优化长度、格式、工具调用正确性、安全性、幻觉率等多个奖励。传统做法要么把多个原始 reward 直接加权相加,要么先把每个 reward 标准化成 advantage 再加权组合。前者容易产生过大的 advantage 幅度,导致策略梯度不稳定;后者虽然稳定一些,但使用静态权重,且把各个目标当作彼此独立的任务处理。

DVAO 的核心做法是:在每个 prompt 的 rollout group 内,用每个奖励通道的经验标准差动态调整 advantage 组合权重。高方差目标被视为当前更有学习信号,低方差目标被抑制,从而在不手工调权重的前提下同时改善准确率与辅助约束。实验覆盖数学推理和工具使用任务,模型包括 Qwen3-4B/8B-Base 与 Qwen2.5-3B/7B-Instruct。论文报告 DVAO 在平均准确率、长度合规、格式合规和 Pareto frontier 上整体优于 GRPO、Reward Combination、Advantage Combination 与 GDPO。

1. 基本信息

项目内容
Hugging Face 入口https://huggingface.co/papers/2605.25604
arXivhttps://arxiv.org/abs/2605.25604
PDFhttps://arxiv.org/pdf/2605.25604
arXiv HTMLhttps://arxiv.org/html/2605.25604
论文标题DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning
作者Guochao Jiang, Jingyi Song, Guofeng Quan, Chuzhan Hao, Guohua Liu, Yuewei Zhang
机构Alibaba Cloud Computing
arXiv 分类cs.CL, cs.LG
arXiv 提交日期2026-05-25
HF Papers 状态2026-05-26 Daily Papers 顶部,#1 Paper of the day
论文篇幅11 页 PDF,含主文、实验、附录证明与局限性

一句话概括:DVAO 是一个用于多奖励 GRPO 的 advantage 组合方法,它用 rollout group 内的奖励方差动态重标定各个目标的学习强度,目标是在“稳定梯度”和“多目标协同”之间取得更好的平衡。

2. 阅读索引

3. 核心结论速览

维度结论
问题定义多奖励 GRPO 中,固定标量化难以同时保持训练稳定与目标协同
方法创新用奖励标准差构造动态权重 w_k sigma_k / sum_l w_l sigma_l
理论主张DVAO 的 advantage 幅度被 Reward Combination 的幅度上界约束,并引入跨目标交互项
数学任务结果Qwen3-4B 平均准确率/长度合规:42.19/99.91;Qwen3-8B:47.49/99.92
工具任务结果Qwen2.5-3B 平均准确率/格式合规:56.66/76.65;Qwen2.5-7B:63.00/79.21
最大风险依赖 rollout group 的方差估计;若奖励噪声高方差,DVAO 可能错误放大噪声

4. 参考资料