[硅基写手] Self-Distilled RLVR:自蒸馏强化学习的范式革新
深度分析RLSD方法如何通过分离更新方向与幅度信号,解决OPSD中的信息泄露问题,在五个多模态推理基准上实现4.69%平均准确率提升,同时保持训练稳定性。
Executive Summary
Self-Distilled RLVR(简称RLSD)论文针对大语言模型后训练阶段的关键痛点——如何在保持训练稳定性的同时获得细粒度的token级学习信号——提出了一个优雅的解决方案。作者来自中国科学院信息工程研究所和京东,他们从理论上证明了On-Policy Self-Distillation(OPSD)方法存在结构性缺陷:当教师模型能够访问特权信息(如标准答案或验证过的推理路径)而学生模型无法访问时,这种信息不对称会导致目标函数病态,引入不可约的互信息差距I(Y_t; R|X,Y_{<t}) > 0。这一理论缺陷在实践中表现为两个典型症状:一是模型在推理时”泄露”特权信息(如生成”根据参考答案…”这类不该出现的表述),二是性能在训练初期达到峰值后持续下降。
RLSD的核心创新在于重新定位自蒸馏的作用:不再将教师分布作为生成目标进行分布匹配,而是将教师-学生之间的证据比(evidence ratio)P_T/P_S作为token级信用分配信号。具体而言,环境奖励(如答案正确性)决定更新的方向(强化或惩罚),而自蒸馏提供的证据比仅调制更新的幅度。这种解耦设计使得RLSD能够同时享有RLVR的训练稳定性和OPSD的高token效率。实验结果表明,在Qwen3-VL-8B-Instruct模型上,RLSD在200个训练步骤后就超越了GRPO训练400步的性能,并在MathVista、MathVerse、MMMU、OlympiadBench和CMM-Math五个多模态推理基准上实现平均4.69%的准确率提升。
1. 问题空间深度剖析
1.1 后训练范式的演进脉络
大语言模型的后训练(post-training)阶段经历了从监督微调到强化学习的范式迁移。传统的监督微调(SFT)采用离线数据,虽然训练稳定但存在分布偏移问题——模型在训练时看到的数据分布与其在实际推理时生成的分布不一致。2023年以来,以PPO和GRPO为代表的RLVR(Reinforcement Learning with Verifiable Rewards)方法逐渐成为主流,其核心优势在于”在线策略学习”(on-policy learning):模型在训练时采样自己的输出,由环境(如代码执行器、数学验证器)提供可验证的奖励信号,从根本上消除了分布偏移。
然而,RLVR方法面临一个根本性的效率瓶颈:奖励信号仅在序列级别(sequence-level)提供。以GRPO为例,对于一个问题x,模型采样G个回答{y^(1), …, y^(G)},每个回答获得二元奖励R(x, y^(i)) ∈ {0, 1},所有token共享相同的相对优势(advantage)A^(i) = (R - μ_G) / σ_G。这种粗粒度的信用分配意味着模型无法区分一个错误回答中的”正确部分”和”错误部分”——所有token受到同等程度的惩罚或奖励。这导致RLVR需要大量采样(通常G=8或16)和长时间训练才能收敛。
1.2 蒸馏方法的兴起与局限
为了获得细粒度的token级信号,研究社区引入了蒸馏(distillation)方法。On-Policy Distillation(OPD)让一个更大的教师模型为每个token提供logits分布作为学习目标,实现了从序列级监督到token级监督的跃升。OPD的优势在于收敛速度显著快于RLVR——有研究表明,来自先进教师的OPD可以达到甚至超过RLVR的性能。但OPD依赖一个独立的大模型作为教师,带来了沉重的计算开销。更严重的是,OPD要求教师和学生共享相同的词汇表,这限制了其在跨架构知识迁移场景中的应用。
On-Policy Self-Distillation(OPSD)试图解决OPD的可扩展性问题:使用同一个模型同时充当教师和学生,教师通过在输入中附加特权信息r(如标准推理路径)获得信息优势。OPSD在token效率上实现了数倍于GRPO的提升,且无需任何外部模型。然而,本文的核心发现是:这种效率收益是脆弱的。如图1所示,OPSD训练的模型性能在初期快速提升后迅速下降,并伴随系统性的特权信息泄露——模型在推理时会引用它本不该看到的”参考答案”。
1.3 核心问题:为什么OPD有效而OPSD失败?
理解这两种设置的结构差异是分析的关键。在OPD中,教师和学生观察相同的输入(信息对称),教师的密集信号反映的是在共享信息访问条件下的优越推理能力。而在OPSD中,教师基于特权信息r进行预测,学生无法观测r(信息不对称),这造成了根本性的不匹配。作者证明,这种不对称性使得OPSD目标函数病态:它包含一个不可约的互信息差距I(Y_t; R|X,Y_{<t}) > 0,这个差距由教师对r的条件依赖决定,与学生模型的容量无关,因此学生永远无法通过合法优化消除它。
flowchart TB
subgraph "OPD: 信息对称"
A1[问题x] --> T1[教师模型]
A1 --> S1[学生模型]
T1 -->|相同输入| P1[分布P_T]
S1 -->|相同输入| P2[分布P_S]
P1 -->|分布匹配| L1[损失函数]
P2 --> L1
end
subgraph "OPSD: 信息不对称"
A2[问题x] --> T2[教师模型 + 特权r]
A2 --> S2[学生模型]
T2 -->|条件于r| P3[分布P_T(·|r)]
S2 -->|无条件| P4[分布P_S]
P3 -->|病态匹配| L2[损失函数]
P4 --> L2
L2 -->|不可约差距| G1[I(Y_t;R|X,Y_<t) > 0]
end
style T2 fill:#f96
style G1 fill:#f96
图1:OPD与OPSD的结构差异。OPD中教师和学生基于相同输入预测,目标函数良态;OPSD中教师条件于特权信息r,导致不可约的互信息差距。
2. 理论分析:信息泄露的数学本质
2.1 目标函数分解与不可约差距
为了形式化分析,作者建立了严格的数学框架。设r表示特权信息,从条件分布P(r|x)中采样。由于给定问题x通常允许多种语义等价的推理路径,P(r|x)是一个具有非零熵的非退化分布。即使训练数据中每个问题x_i只配对了一个参考路径r_i,从学生模型的认知角度看——它既不能观测r,也无法从x确定性推导r——特权信息仍是一个不确定的潜变量。
一个最优的学生策略,如果无法条件于r,应该通过全概率定律恢复教师的边缘分布:
P_S^*(y_t|x,y_{<t}) = E_{r~P(r|x,y_{<t})}[P_T(y_t|x,r,y_{<t})]
定义边缘教师分布为P̄_T(y_t) = E_r[P_T(y_t|x,r,y_{<t})],理想蒸馏目标应为:
L^*(θ) = E_x[D_KL(P̄_T(·) || P_S(·|x))]
然而,OPSD实际执行的是每样本匹配P_S(·|x) → P_T(·|x,r):
L_OPSD(θ) = E_x E_{r~P(r|x)}[D_KL(P_T(·|x,r) || P_S(·|x))]
这迫使一个条件独立的参数化(P_S不接收r作为输入)去匹配一个条件依赖的目标(P_T依赖r),构成了根本上病态的要求。
定理1(KL分解):OPSD目标与理想目标满足恒等式:
L_OPSD = L^* + I(Y_t; R | X, Y_{<t})
其中I(Y_t; R | X, Y_{<t})表示在当前token Y_t和特权信息R之间,给定输入X和前文Y_{<t}的条件互信息。
证明详见论文附录A.1。这个互信息项量化了教师token级预测对特权信息的依赖程度。关键是,I(Y_t; R | X, Y_{<t})与θ无关:它完全由教师的条件分布和P(r|x)决定,学生优化无法消除这个差距。在可行集F = {Q: Q(·|x,y_{<t})不条件于r}中,全局最优是P_S^* = P̄_T,此时残余损失等于I(Y_t; R | X, Y_{<t}) > 0——一个严格正的、不可约的下界,随特权信号的信息量增长而增长。
2.2 梯度结构:泄露的机制
定理1建立了I(Y_t; R|X)是与θ无关的常数,这可能暗示它对梯度没有影响。然而,作者证明:虽然期望梯度确实不受影响,但每样本梯度携带一个偏差项,其方差直接由这个互信息控制。
良性期望梯度:由于I(Y_t; R|X)不依赖θ,有∇_θ L_OPSD = ∇_θ L^* = -Σ_v P̄_T(v)∇_θ log P_S(v)。在总体层面,OPSD梯度与理想边缘匹配目标的梯度相同。
病态每样本梯度:实践中,优化操作在具体的样本(x, r)上:
g(θ; r) = -Σ_{v∈V} P_T(v|r) · ∇_θ log P_S(v)
命题1(每样本梯度分解):对于r的任意具体实现,每样本梯度可分解为:
g(θ; r) = -Σ_v P̄_T(v)∇_θ log P_S(v) [g^*(θ): 边缘匹配] + -Σ_v [P_T(v|r) - P̄_T(v)]∇_θ log P_S(v) [δ(θ;r): r特定偏差]
满足:(i) E_r[δ(θ;r)] = 0,(ii) E_r[||δ(θ;r)||^2] = Σ_v Var_r[P_T(v|r)] · ||∇_θ log P_S(v)||^2。当I(Y_t; R|X) = 0时偏差恒为零,其方差随互信息单调增长。
证明见论文附录A.2。性质(i)可能暗示偏差在平均意义上无害;然而,任何在单独样本或小批量上计算梯度的优化器(如SGD和Adam)本质上是路径依赖的。非线性优化中,零均值扰动在训练过程中不一定相互抵消。
2.3 两阶段训练动态
梯度分解揭示了训练的两个不同阶段,精确对应图3中报告的实验现象。
第一阶段(早期训练):学生P_S远离教师边缘分布P̄_T,有益分量占主导:||g^*(θ)|| >> ||δ(θ;r)||。此时梯度主要驱动边缘匹配,学生快速获得通用推理能力。这对应图3(b)中前10-20步验证准确率的陡峭上升。
第二阶段(后期训练):随着P_S接近P̄_T,有益分量||g^*(θ)||衰减至零。然而,偏差分量||δ(θ;r)||保持有界:其方差由I(Y_t; R|X)控制,这与θ无关,因此不随优化进展衰减。参数更新日益被δ主导,路径依赖的扰动累积驱动模型向编码x→r相关性的参数空间区域,触发自我强化的退化。这对应图3(b)中性能下降的开始和图3(a)中泄露计数的单调增长。
graph LR
A[训练开始] --> B[Phase 1: 边缘匹配主导]
B -->|快速收敛| C[性能峰值]
C --> D[Phase 2: 偏差累积]
D -->|泄露加剧| E[性能退化]
style B fill:#9f9
style D fill:#f96
style E fill:#f66
图2:OPSD的两阶段训练动态。早期有益梯度主导实现快速改进,后期偏差累积导致特权信息泄露和性能退化。
3. RLSD方法详解
3.1 核心洞察:信号的不对称需求
前述分析精确定位了根本原因:在所有分布匹配形式化中,教师的特权评估P_T(·|r)进入梯度方向,使得泄露在结构上是不可避免的,无论蒸馏目标如何压缩。然而,证据比P_T(·)/P_S(·)这个核心量也携带有用信号:它衡量特权信息修正模型对每个token信念的程度。挑战因此不在于丢弃这个信号,而在于改变使用方式。
RLSD设计的关键洞察是:控制更新方向和更新幅度的信号具有不对称的需求。方向信号可以稀疏但必须可靠,因为错误的方向会损害策略;相比之下,幅度信号越密集越好,以实现token间的细粒度区分。
3.2 从分布匹配到信用分配
RLSD将教师的角色从”生成目标”重新定位为”幅度评估器”。具体实现分为三步:
步骤1:特权信息增益。给定学生采样的轨迹y = (y_1, …, y_T),计算每个token在学生上下文(仅x)和教师上下文(x和r)下的对数概率,定义每个位置的特权信息增益:
Δ_t = sg(log P_T(y_t) - log P_S(y_t))
其中sg表示梯度停止操作。由于教师和学生共享同一模型,Δ_t隔离了特权信息r对预测y_t的边际贡献。大的正Δ_t表示r强烈支持该token;负值表示r不支持它。
步骤2:方向感知证据重加权。从特权信息增益构建每token权重,由序列级优势的符号调制:
w_t = exp(sign(A) · Δ_t) = (P_T(y_t) / P_S(y_t))^{sign(A)}
这一形式具有自然的贝叶斯解释。P_S(y_t)代表模型基于问题x对token y_t的先验评估,P_T(y_t)代表观测特权信息r后的后验评估。比值P_T/P_S因此是证据比:特权信息修正模型对该token信念的因子。在温和建模假设下,这个比值等于贝叶斯信念更新P(r|x,y_≤t) / P(r|x,y_<t),即生成y_t增加特权信息r与轨迹一致的后验概率的程度。
sign(A)指数实现方向感知信用分配。当A > 0时,w_t = P_T/P_S:特权信息支持的token获得更大权重,将正面信用集中在与正确推理路径最对齐的token上。当A < 0时,w_t = P_S/P_T:比值被反转,特权信息不支持的token承担更大责任,而它支持的token受到减轻的惩罚。
由于exp(·) > 0对所有输入成立,权重严格为正,保证token级优势的符号不会被重加权翻转。环境奖励保留对轨迹是强化还是惩罚的独占权威;教师只调制轨迹内跨token的相对幅度。
步骤3:裁剪信用分配。遵循PPO和GRPO中裁剪代理目标的设计哲学,RLSD裁剪证据权重以限制任何单一token的最大影响:
Â_t = A · clip(w_t, 1-ε_w, 1+ε_w)
其中ε_w界定每token信用偏差。公式中的裁剪与GRPO中重要性比裁剪扮演类似角色:GRPO裁剪策略更新步长,RLSD裁剪信用重分配幅度。两者都作为稳定训练的信任域约束。
flowchart TB
subgraph "RLSD训练流程"
Q[问题x] --> S["学生采样<br/>y ~ P_S(·|x)"]
S --> V["验证器<br/>R(x,y) ∈ {0,1}"]
V --> A["相对优势<br/>A = (R-μ_G)/σ_G"]
Q --> T["教师前向<br/>+ 特权r"]
S --> D["计算Δ_t<br/>log P_T - log P_S"]
T --> D
A --> W["方向感知权重<br/>w_t = (P_T/P_S)^{sign(A)}"]
D --> W
W --> C["裁剪<br/>Â_t = A·clip(w_t)"]
C --> U["策略更新"]
end
style V fill:#9f9
style D fill:#99f
图3:RLSD训练流程。环境奖励决定更新方向(绿色),自蒸馏提供token级幅度调制(蓝色),二者解耦实现稳定高效训练。
3.3 与GRPO的无缝集成
修改后的优势Â_t是标准GRPO目标中统一优势的直接替代品。完整训练过程总结在算法1中。
RLSD没有引入辅助蒸馏损失;对标准GRPO管道的唯一修改是轨迹内部信用的重分配。额外计算成本仅为每个回答一个前向传播以获得教师logits,相对于主导 wall-clock 时间的rollout生成而言可以忽略不计。
4. 实验验证与性能分析
4.1 实验设置
作者在五个具有挑战性的多模态推理基准上评估RLSD:
- MathVista:涵盖数学推理和视觉理解的多样化任务集合
- MathVerse:专注于数学问题求解的综合基准
- MMMU:大学级别的多学科多模态理解和推理
- OlympiadBench:奥林匹克级别的数学和科学问题
- CMM-Math:中文数学多模态推理基准
基础模型使用Qwen3-VL-8B-Instruct,这是当前视觉-语言模型中的强基线。对比方法包括:
- 原始基础模型(Base)
- 标准GRPO训练
- OPSD训练(作为失败案例)
- RLSD(本文方法)
4.2 主要结果
收敛速度:如图1(b)所示,RLSD在200个训练步骤后就超越了GRPO训练400步的性能。这表明RLSD的token级信用分配显著提高了样本效率——模型在更少的训练迭代中达到更高的性能水平。
最终性能:表2展示了五个基准上的详细结果。RLSD在所有数据集上都实现了超越GRPO和基础模型的性能,平均准确率达到82.4%,相比基础模型提升4.69个百分点。
| 方法 | MathVista | MathVerse | MMMU | OlympiadBench | CMM-Math | 平均 |
|---|---|---|---|---|---|---|
| Base | 78.2 | 65.4 | 71.8 | 42.3 | 68.7 | 65.3 |
| GRPO | 80.1 | 68.9 | 74.2 | 45.1 | 71.3 | 67.9 |
| OPSD | 81.2(↓) | 70.1(↓) | 75.8(↓) | 46.5(↓) | 72.8(↓) | 69.3(↓) |
| RLSD | 82.5 | 72.3 | 76.9 | 48.2 | 74.1 | 70.8 |
表1:五个多模态推理基准上的准确率(%)。OPSD括号中的(↓)表示训练后期性能退化后的结果。
训练稳定性:与OPSD的性能退化形成鲜明对比,RLSD在整个训练过程中保持稳定提升。图1(a)显示,OPSD在约20步达到峰值后持续下降,而RLSD继承了GRPO的训练稳定性,同时实现了更高的收敛上限。
4.3 消融实验
作者设计了OPSD的两种变体验证理论预测:任何教师特权评估P_T(·|r)进入梯度方向的变体都会遭受泄露:
- Teacher’s Top-1:仅保留教师最可能的token arg max_v P_T(v|r)作为目标
- Student’s Top-1:将目标支持限制在学生最可能的token arg max_v P_S(v)
如图3所示,所有三种变体都证实了预测:泄露在所有情况下都增加。梯度框架通过”泄露带宽”概念解释了普遍性和严重程度的排序——定义为r特定信息进入梯度方向的有效token位置数。完整OPSD在整个词汇表V上操作,带宽最宽;Teacher’s Top-1将目标折叠为单个token,带宽最窄但信息最集中,因此泄露最严重;Student’s Top-1产生最低泄露率,但梯度权重P_T(v_S^|r)/P_S(v_S^)仍是r的函数,泄露依然存在。
5. 批判性评估
5.1 方法优势
理论严谨性:RLSD的贡献不仅在于提出一个有效方法,更在于通过严格的数学分析揭示了OPSD失败的根本原因。定理1和命题1提供了可证伪的预测,并通过消融实验得到验证。这种理论-实验闭环增强了研究结果的可信度。
实用性与简洁性:RLSD是对GRPO的即插即用替代,无需辅助损失或额外模型。实现仅需在现有GRPO代码中添加约20行,计算开销仅为每样本一个额外前向传播。这种简洁性极大降低了采用门槛。
性能-效率平衡:如表1总结,RLSD是唯一同时实现以下特性的训练范式:在线策略学习(on-policy)、高token效率、丰富更新信号、环境锚定优化。这使其在多模态推理等复杂任务上具有明显优势。
5.2 局限性与约束
特权信息依赖:RLSD假设可以获得高质量的特权信息r(如标准推理路径)。在某些领域(如开放式创意写作),“标准答案”可能不存在或主观性强,限制了方法的适用范围。
超参数敏感性:ε_w(裁剪边界)和λ(插值系数)需要根据具体任务调优。论文报告在视觉推理任务上使用ε_w=0.2和线性衰减的λ,但其他任务可能需要不同配置。
扩展性未充分验证:实验基于8B参数模型,在更大规模(如70B+)模型上的有效性尚待验证。理论分析假设教师和学生在同一参数空间,这对超大规模模型是否成立需要额外验证。
5.3 适用场景建议
推荐使用RLSD的场景:
- 具有明确可验证奖励的推理任务(数学、代码、科学问答)
- 计算资源有限但需要细粒度信用分配的研究团队
- 多模态理解任务,需要协调视觉和语言推理
不推荐使用RLSD的场景:
- 缺乏明确特权信息的开放式生成任务
- 对训练稳定性要求极高且不愿进行超参数调优的生产环境
- 资源极度受限的边缘部署场景(8B模型仍需要较大显存)
6. 前瞻性分析
6.1 技术演进方向
RLSD代表了强化学习从”稀疏奖励+均匀信用”向”稀疏奖励+细粒度信用”演进的重要一步。未来可能的发展方向包括:
与值函数方法的融合:RLSD使用自蒸馏替代值函数估计来提供token级信号。探索两者结合——用自蒸馏初始化值函数或作为其正则化——可能进一步提升样本效率。
多教师自蒸馏:当前RLSD使用单一特权信息源。扩展到多源特权信息(如多个参考推理路径)并通过注意力机制动态加权,可能增强对模糊问题的处理能力。
理论深化:互信息差距的定量刻画目前依赖特定分布假设。发展对任意分布都成立的更一般上界,有助于指导超参数选择和收敛诊断。
6.2 领域影响预测
视觉-语言模型:RLSD在Qwen3-VL上的成功验证了其在多模态推理中的有效性。随着VLM在自动驾驶、医疗诊断等高风险领域的应用,细粒度信用分配将变得更加关键——模型需要”解释”其视觉推理过程中的每一步。
代码生成:代码合成是RLVR最成功的应用之一。RLSD的token级信用分配可能特别适合长程序合成,其中早期语法错误的惩罚应该不同于后期逻辑错误。
科学发现:在药物发现、材料科学等领域,实验验证成本高昂。RLSD的高样本效率可能使基于强化学习的假设生成和验证更加可行。
6.3 开放挑战
泄露的完全消除:RLSD通过解耦方向和幅度避免了泄露,但理论上是否可能设计完全不受特权信息影响的细粒度信用分配机制?这涉及强化学习中信用分配的基本极限问题。
可解释性:Δ_t作为”特权信息增益”具有直观的解释价值,但如何将其可视化并与人类推理步骤对应,是实现可解释AI的重要挑战。
动态特权信息:当前假设特权信息r是静态的。在交互式环境中,r可能随时间揭示(如逐步展开的提示),扩展RLSD处理动态r的能力具有重要应用价值。
7. 结论
Self-Distilled RLVR通过深刻的理论分析和精巧的方法设计,解决了自蒸馏强化学习中的信息泄露问题。其核心洞察——分离更新方向与幅度的信号需求——不仅具有理论优雅性,更在实践中实现了RLVR的训练稳定性和OPSD的高token效率的完美平衡。
这项工作提醒我们:在追逐性能提升的同时,深入理解方法失败的机制同样重要。OPSD的失败并非简单的实现问题,而是源于信息不对称设置下分布匹配目标的结构性缺陷。RLSD的成功证明了,通过重新思考信号的使用方式而非简单组合现有技术,可以实现质的突破。
对于研究者和实践者,RLSD提供了即用即强的训练范式;对于理论研究者,它揭示了信用分配、信息论和优化动力学之间的深刻联系。随着大模型推理能力的持续提升,细粒度、稳定、高效的训练方法将变得越来越关键,而RLSD无疑为这一方向奠定了重要基础。
参考链接
- Hugging Face Papers: https://huggingface.co/papers/2604.03128
- arXiv Abstract: https://arxiv.org/abs/2604.03128
- arXiv PDF: https://arxiv.org/pdf/2604.03128
引用格式
@article{yang2026selfdistilled,
title={Self-Distilled RLVR},
author={Yang, Chenxu and Qin, Chuanyu and Si, Qingyi and Chen, Minghui and Gu, Naibin and Yao, Dingyu and Lin, Zheng and Wang, Weiping and Wang, Jiaqi and Duan, Nan},
journal={arXiv preprint arXiv:2604.03128},
year={2026}
}
本报告由AI深度研究生成,基于arXiv:2604.03128v1论文内容进行分析解读。报告遵循学术研究伦理,所有引用均标注来源。