Logo
热心市民王先生

[硅基写手] DelTA:基于判别式Token信用分配的强化学习新范式

论文解读 AI研究 强化学习 大语言模型

人大与蚂蚁国际联合团队提出DelTA方法,通过判别器视角重新理解RLVR更新机制,在七个数学推理基准上相比最强基线平均提升3.26分(Qwen3-8B)和2.62分(Qwen3-14B),揭示了响应级奖励如何隐式决定Token级概率变化的核心机制。

Executive Summary

强化学习从可验证奖励(RLVR)已成为提升大语言模型推理能力的核心技术范式,但响应级奖励如何转化为Token级概率变化的机制长期缺乏理论解释。中国人民大学与蚂蚁国际联合团队在arXiv发表的DelTA(Discriminative Token credit Assignment)论文,首次引入判别器视角揭示:RLVR策略梯度更新方向在Token梯度空间中隐式充当线性判别器角色,决定哪些Token概率被提升或抑制。这一发现将序列级强化学习的Token选择效应从”黑箱”转化为可分析、可优化的显式机制。实验表明,DelTA在七个数学推理基准上超越DAPO、SAPO、FIPO等最强同规模基线,Qwen3-8B-Base平均提升3.26分(25.14→28.40),Qwen3-14B-Base提升2.62分(37.29→39.91)。更重要的是,DelTA的Token系数能够有效区分高学习价值Token与有害梯度方向,为RLVR的训练动力学提供了新的设计原则。

问题空间深度剖析

奖励粒度错配的理论困境

RLVR的核心矛盾源于奖励信号与策略更新的粒度不匹配。在传统强化学习框架中,奖励函数通常设计为状态-动作对的密集反馈,每个决策步骤都有明确的标量指导。然而,RLVR面对的是数学推理、代码生成等具有确定性正确答案的任务,其奖励机制本质上是”全有或全无”的二元判定:一个完整的推理链条要么得到1分(答案正确),要么得到0分(答案错误)。这种响应级稀疏奖励与Token级密集参数更新之间存在根本性的信息不对称。

具体而言,对于一个长度为LL的生成序列{o1,o2,...,oL}\{o_1, o_2, ..., o_L\},RLVR将单一标量优势A^\hat{A}均匀分配到所有Token位置。以DAPO(Dynamic Advantage Policy Optimization)为例,其目标函数可表示为:

JDAPO(θ)=E[1i=1Goii=1Gt=1oimin(ri,t(θ)A^i,clip(ri,t(θ),1ϵlow,1+ϵhigh)A^i)]J_{DAPO}(\theta) = \mathbb{E}\left[\frac{1}{\sum_{i=1}^{G}|o_i|}\sum_{i=1}^{G}\sum_{t=1}^{|o_i|}\min(r_{i,t}(\theta)\hat{A}_i, \text{clip}(r_{i,t}(\theta), 1-\epsilon_{low}, 1+\epsilon_{high})\hat{A}_i)\right]

其中ri,t(θ)r_{i,t}(\theta)是重要性采样比率,A^i\hat{A}_i是第ii个响应的组归一化优势。关键在于,A^i\hat{A}_i对所有Token位置tt都是相同的,这使得”哪些Token对正确答案有贡献”这一核心问题无法从奖励信号中直接获得答案。

稀疏分布偏移的经验观察

近期研究(Meng et al., 2026; Ma et al., 2026)通过大规模实证分析揭示了一个反直觉现象:RLVR训练后,只有约15%-25%的Token位置发生显著概率分布偏移(定义为概率变化超过10%),而大多数Token的分布几乎保持不变。这种稀疏性无法用均匀奖励分配来解释——如果每个Token都接收相同的梯度信号,理论上所有位置都应该发生相似程度的变化。

这一观察暗示RLVR内部存在隐式的Token选择机制。然而,这个机制究竟是什么?它受哪些因素控制?能否被显式设计以提升训练效果?这些问题构成了DelTA研究的起点。

传统方法的局限性

面对Token信用分配难题,现有方法主要采用三类策略:

第一类:过程奖励模型(PRM)。通过人工或模型标注,为推理过程的每个步骤打分,将稀疏响应奖励转化为密集步骤奖励(Cui et al., 2025; Zhang et al., 2025b)。然而,PRM需要大量高质量标注数据,标注成本高且容易引入偏差,同时在数学推理等精确性要求高的领域,步骤级标注本身就是一个难题。

第二类:Token级重要性估计。基于启发式指标(如熵、未来影响)动态调整Token权重(Wang et al., 2025; Ma et al., 2026)。这类方法计算高效,但启发式指标与实际学习价值之间缺乏理论关联,效果高度依赖超参数调优。

第三类:价值函数学习。训练额外的价值网络预测每个Token的期望回报(Schulman et al., 2017)。然而,在LLM规模下,价值网络本身就是一个需要海量数据训练的巨大模型,且存在自举偏差问题,训练稳定性难以保证。

DelTA选择了一条不同的路径:不引入额外模型或标注,而是深入分析RLVR更新方向本身的几何结构,从判别器视角理解并优化隐式的Token选择机制。

技术深度解析

判别器视角的理论框架

DelTA的核心洞见在于将策略梯度更新方向Δθ\Delta\theta视为Token梯度空间中的线性判别器。考虑局部参数更新Δθ\Delta\theta对某个候选Token xx在上下文cc下概率的影响:

Δlogπ(xc)(θlogπθ(xc)θ=θold)Δθ\Delta\log\pi(x|c) \approx \left(\nabla_\theta\log\pi_\theta(x|c)\Big|_{\theta=\theta_{old}}\right)^\top\Delta\theta

这个公式揭示了关键信息:概率变化的方向(正或负)取决于Token梯度向量θlogπθ(xc)\nabla_\theta\log\pi_\theta(x|c)与更新方向Δθ\Delta\theta的内积。当内积为正时,Token概率增加;为负时,概率减少。

对于DAPO风格的RLVR,更新方向可以分解为正负两侧的加权聚合:

ΔθRLVRi:A^i>0t=1oiA^ivi,ti:A^i<0t=1oiA^ivi,t\Delta\theta_{RLVR} \propto \sum_{i:\hat{A}_i>0}\sum_{t=1}^{|o_i|}\hat{A}_i v_{i,t} - \sum_{i:\hat{A}_i<0}\sum_{t=1}^{|o_i|}|\hat{A}_i| v_{i,t}

其中vi,t=θlogπθ(oi,tq,oi,<t)θ=θoldv_{i,t} = \nabla_\theta\log\pi_\theta(o_{i,t}|q, o_{i,<t})|_{\theta=\theta_{old}}是第ii个响应中第tt个Token的梯度向量。

进一步,定义正负两侧的质心:

μˉ+=i:A^i>0t=1oiA^ivi,ti:A^i>0t=1oiA^i,μˉ=i:A^i<0t=1oiA^ivi,ti:A^i<0t=1oiA^i\bar{\mu}_+ = \frac{\sum_{i:\hat{A}_i>0}\sum_{t=1}^{|o_i|}\hat{A}_i v_{i,t}}{\sum_{i:\hat{A}_i>0}\sum_{t=1}^{|o_i|}\hat{A}_i}, \quad \bar{\mu}_- = \frac{\sum_{i:\hat{A}_i<0}\sum_{t=1}^{|o_i|}|\hat{A}_i| v_{i,t}}{\sum_{i:\hat{A}_i<0}\sum_{t=1}^{|o_i|}|\hat{A}_i|}

则更新方向可重写为:

ΔθRLVRM+μˉ+Mμˉ\Delta\theta_{RLVR} \propto M_+\bar{\mu}_+ - M_-\bar{\mu}_-

其中M+M_+MM_-分别是正负两侧的总优势质量。将此代入概率变化公式:

Δlogπ(xc)M+(θlogπθ(xc))μˉ+M(θlogπθ(xc))μˉ\Delta\log\pi(x|c) \propto M_+(\nabla_\theta\log\pi_\theta(x|c))^\top\bar{\mu}_+ - M_-(\nabla_\theta\log\pi_\theta(x|c))^\top\bar{\mu}_-

这正是线性判别器的决策规则!候选Token是否被强化,取决于其梯度向量与正侧质心的相似度是否超过与负侧质心的相似度。

共享模式对判别力的影响

判别器视角揭示了标准RLVR的潜在缺陷:质心μˉ+\bar{\mu}_+μˉ\bar{\mu}_-是通过加权平均构造的,这是一种”类内总结”而非”类间区分”的操作。在数学推理任务中,正确答案和错误答案往往共享大量格式化Token(如换行、公式符号)和问题特定实体(如数字、变量名)。这些高频共享模式的梯度方向会同时拉扯两个质心,使其向”背景结构”方向偏移。

从经典判别分析角度(Cohen et al., 2013; Khosla et al., 2020),好的类内总结不一定是好的类间判别器。当共享模式占据主导地位时,正负质心之间的对比度被削弱,导致判别器对那些真正区分正确与错误推理的关键Token方向不敏感。

DelTA的核心算法

DelTA通过重新加权Token梯度项来增强质心对比度。算法流程包含三个关键步骤:

flowchart TD
    A[Rollout采样] --> B[计算初始质心]
    B --> C{判别力迭代}
    C -->|迭代K次| D[计算Token判别分数]
    D --> E[更新加权质心]
    E --> C
    C -->|收敛| F[映射到系数范围]
    F --> G[重加权RLVR目标]
    
    subgraph 判别分数计算
        D --> D1[正侧Token: α = σ distance_margin / γ]
        D --> D2[负侧Token: α = σ -distance_margin / γ]
    end
    
    style C fill:#e1f5fe
    style F fill:#fff3e0

步骤1:质心初始化。使用标准优势加权质心作为起点:μ+(0)=μˉ+\mu_+^{(0)} = \bar{\mu}_+μ(0)=μˉ\mu_-^{(0)} = \bar{\mu}_-

步骤2:判别分数估计。对每个Token梯度vi,tv_{i,t},计算其判别分数αi,t(k)\alpha_{i,t}^{(k)}。以正侧Token为例:

αi,t(k)=argmaxα[0,1]α(vi,tμ(k)22vi,tμ+(k)22)+γ+(k)h(α)\alpha_{i,t}^{(k)} = \arg\max_{\alpha\in[0,1]}\alpha\left(\|v_{i,t}-\mu_-^{(k)}\|_2^2 - \|v_{i,t}-\mu_+^{(k)}\|_2^2\right) + \gamma_+^{(k)} h(\alpha)

其中h(α)=αlogα(1α)log(1α)h(\alpha) = -\alpha\log\alpha - (1-\alpha)\log(1-\alpha)是二元熵正则项,γ+(k)\gamma_+^{(k)}是温度参数。闭式解为:

αi,t(k)=σ(vi,tμ(k)22vi,tμ+(k)22γ+(k))\alpha_{i,t}^{(k)} = \sigma\left(\frac{\|v_{i,t}-\mu_-^{(k)}\|_2^2 - \|v_{i,t}-\mu_+^{(k)}\|_2^2}{\gamma_+^{(k)}}\right)

其中σ()\sigma(\cdot)是sigmoid函数。这个分数高当Token梯度更接近自己一侧的质心而非对侧质心,即具有更强的类间区分性。

步骤3:质心更新。使用判别分数重新计算加权质心:

μ+(k+1)=i:A^i>0t=1oiA^iαi,t(k)vi,ti:A^i>0t=1oiA^iαi,t(k)\mu_+^{(k+1)} = \frac{\sum_{i:\hat{A}_i>0}\sum_{t=1}^{|o_i|}\hat{A}_i\alpha_{i,t}^{(k)}v_{i,t}}{\sum_{i:\hat{A}_i>0}\sum_{t=1}^{|o_i|}\hat{A}_i\alpha_{i,t}^{(k)}}

迭代KK次后,将最终判别分数映射到有界系数范围[λmin,λmax][\lambda_{min}, \lambda_{max}],通常设为[0.8,1.2][0.8, 1.2],避免极端重加权:

λi,t=λmin+(λmaxλmin)αi,t\lambda_{i,t} = \lambda_{min} + (\lambda_{max} - \lambda_{min})\alpha_{i,t}^*

最终,DelTA的自归一化目标为:

JDelTA(θ)=E[1i=1Gt=1oiλi,ti=1Gt=1oiλi,tmin(ri,t(θ)A^i,clip(ri,t(θ),1ϵlow,1+ϵhigh)A^i)]J_{DelTA}(\theta) = \mathbb{E}\left[\frac{1}{\sum_{i=1}^{G}\sum_{t=1}^{|o_i|}\lambda_{i,t}}\sum_{i=1}^{G}\sum_{t=1}^{|o_i|}\lambda_{i,t}\min(r_{i,t}(\theta)\hat{A}_i, \text{clip}(r_{i,t}(\theta), 1-\epsilon_{low}, 1+\epsilon_{high})\hat{A}_i)\right]

计算高效的梯度代理

在全参数LLM上显式计算Token梯度向量vi,tv_{i,t}在计算上不可行。DelTA采用层限制的LM头梯度作为代理:只计算最后一层Transformer和LM头参数的梯度,用于判别分数估计。这个代理只影响系数计算,实际策略优化仍在全参数上进行。实验表明,这种近似在效果上与全参数梯度几乎等价,同时将额外开销控制在可接受范围内。

实验设计与结果分析

实验设置

研究团队在Qwen3-8B-Base和Qwen3-14B-Base两个规模上进行训练,使用DeepMath-103K数据集和VeRL框架。对比方法包括DAPO、带Forking Tokens的DAPO(DAPO w/ FT)、SAPO和FIPO,所有方法使用相同超参数,禁用动态采样以隔离目标函数的影响。

评估涵盖七个数学推理基准:AIME24、AIME25、AIME26、HMMT25(二月/十一月)、HMMT26(二月)和Brumo25。为了充分测试长推理能力,生成最大长度设为30,000 Token,每个问题采样16个响应,报告所有样本的平均性能。

主要结果

方法AIME24AIME25AIME26HMMT25(Feb)HMMT25(Nov)HMMT26(Feb)Brumo25Avg
Qwen3-8B-Base
DAPO34.7923.3324.1713.5412.0816.8636.4622.95
DAPO w/ FT36.6723.9626.4615.6215.4217.0539.1724.80
SAPO38.7524.3726.2514.5816.0417.4239.3725.14
FIPO37.5023.1323.9614.5812.9217.9937.7123.89
DelTA43.1326.4628.1218.3318.5420.2744.7928.40
Qwen3-14B-Base
DAPO51.2532.2939.7919.7930.0025.3848.1335.09
DAPO w/ FT54.3733.7541.4620.4231.6724.8152.0836.77
SAPO53.9634.1741.4620.6228.3324.0550.2135.94
FIPO54.5835.0042.5021.4632.2924.4352.0837.29
DelTA56.8737.9245.2126.0432.9226.8954.7939.91

DelTA在所有七个基准上都取得最佳结果。在8B规模上,相比最强基线SAPO(25.14→28.40,+3.26分),在14B规模上相比FIPO(37.29→39.91,+2.62分)。值得注意的是,DelTA在最具挑战性的AIME系列(美国数学邀请赛,全球仅约300名高中生有资格参加)上展现出显著优势,表明其对高难度推理任务的适配性。

训练动力学分析

训练曲线揭示了DelTA与DAPO的显著差异。在早期阶段,两种方法奖励轨迹相似,但随后发生分化:DAPO在约150步后进入平台期甚至轻微退化,而DelTA持续改进直至收敛于更高奖励。

响应长度和熵曲线提供了额外洞见。DAPO训练的模型趋向于生成更短响应,熵值上升,暗示模型可能”走捷径”——通过简化解题路径来避免复杂推理中的错误风险。相反,DelTA维持更长响应和更低熵值,表明其能够稳定执行深度推理链,而非退化到保守策略。

这种差异与判别器视角的预测一致:标准质心被共享背景方向主导后,有效更新方向的对比度减弱,模型难以学习区分推理路径质量的能力。DelTA通过增强对比度,使更新方向持续聚焦于那些真正区分正确与错误的Token,从而维持有效的长推理能力。

Token系数有效性验证

研究设计了巧妙的消融实验:不使用连续重加权,而是仅用λi,t\lambda_{i,t}进行硬Token选择——只训练排名前50%的Token。

结果显示:Top-λ\lambda训练(仅用一半Token)反而持续优于全Token的DAPO,这证明λi,t\lambda_{i,t}确实识别出了高学习价值的Token。更有说服力的是,Bottom-λ\lambda训练(用后50% Token)导致模型快速崩溃,而随机50%选择与DAPO持平。这说明低λ\lambda Token不仅信息量少,其梯度方向甚至对训练有害。

如果DelTA的增益仅来自”稀疏化”(减少优化Token数),那么随机50%选择应该有类似效果,但事实并非如此。这一发现为DelTA的理论框架提供了强有力的实证支持:判别分数确实捕捉到了Token梯度方向的学习价值,而不仅仅是提供了一个筛选机制。

设计组件必要性验证

组件AIME25AIME26HMMT25HMMT26Avg
Full DelTA26.4628.1218.5420.2723.27
w/o 自适应γ\gamma25.0026.0416.0417.9921.19
w/o 熵正则项24.3726.8715.4217.4220.93
w/o λ\lambda归一化24.3726.2515.8319.3221.39
w/o 范围映射24.7925.8315.8317.0520.78
w/o 迭代优化23.1325.4215.4216.2919.97

每个设计组件都对最终性能有贡献。最显著的退化来自”w/o 迭代优化”——仅使用初始质心估计系数时,性能甚至低于标准DAPO基线。这表明单次估计不足以捕捉判别方向,迭代优化使质心逐步聚焦于区分性特征。

范围映射和熵正则项的必要性说明:软性、有界的系数比原始分数或硬分配更稳定。自适应温度和λ\lambda归一化则分别解决了尺度适应性和系数质量归一化问题。

反向对照实验:仅使用类内信息

一个关键对照实验检验了跨侧比较的必要性:“仅类内”变体完全移除了对侧质心,只根据Token与自身类质心的距离分配系数:

αi,t=σ(vi,tμ+22γ+),A^i>0\alpha_{i,t} = \sigma\left(\frac{-\|v_{i,t}-\mu_+\|_2^2}{\gamma_+}\right), \quad \hat{A}_i > 0

结果表明该变体性能甚至低于DAPO基线(17.94 vs 19.05)。这说明”靠近类内质心”不等同于”具有判别价值”——类内质心可能被共享模式主导,那些接近质心的Token反而是低区分性的。

这一结果有力支持了DelTA的核心论点:有效的Token信用分配必须基于跨类对比,而非单纯的类内中心性。

对比分析

与PRM范式的本质差异

过程奖励模型(PRM)需要为每个推理步骤显式标注奖励,本质上是在强化学习框架外引入了一个独立的监督学习问题。DelTA则完全在RLVR框架内运作,不依赖任何额外标注或模型。这种差异带来了两个层面的优势:

数据层面:PRM需要高质量步骤级标注,在数学推理领域,这意味着专家级别的步骤评分。DelTA仅需最终答案正确性,数据收集成本降低一个数量级以上。

理论层面:PRM的步骤奖励是”注入式”的,独立于策略优化过程。DelTA的Token系数是”内生式”的,直接从策略梯度方向中导出,与优化目标保持一致。

与启发式Token选择的方法论对比

基于熵或未来影响的Token选择方法依赖于启发式假设:如”高熵Token意味着关键决策点”或”影响后续Token的梯度更值得关注”。这些假设虽然在某些情况下成立,但缺乏与策略优化目标的直接关联。

DelTA的判别分数有明确的优化含义:它衡量Token梯度方向对区分正负响应的贡献。当αi,t\alpha_{i,t}高时,意味着该Token的梯度方向能够增强正负质心的对比度,从而提高更新方向的判别能力。这种关联使得系数计算不再是启发式选择,而是策略优化目标的派生量。

计算开销对比

方法额外前向传播额外反向传播内存增量
PRMO(1)(奖励模型)O(1)(奖励模型)+模型大小
DAPO000
DelTA0O(K)(迭代次数)+梯度缓存

DelTA的计算开销主要来自迭代优化过程中的梯度计算。在实际实现中,K=1K=1(单次迭代)已足够,且梯度计算仅限于最后一层,额外开销约为标准训练时间的8%-12%。相比之下,PRM需要训练和维护一个完整的奖励模型,开销通常超过主策略训练。

批判性评估

核心优势的边界条件

DelTA在以下场景展现出最大优势:

高区分性Token稀疏分布:当正确答案与错误答案的Token级差异集中在少数关键位置时(如数学推导中的关键转折点、代码生成中的边界条件判断),DelTA的判别系数能够有效放大这些位置的信号。实验中AIME系列的显著提升支持这一判断——数学竞赛题往往需要精巧的推理路径,关键步骤的识别对于解题至关重要。

响应间共享结构多:当所有响应(无论正确与否)都遵循相似的格式或模板时,标准质心容易被这些共享模式主导。DelTA通过显式降低共享模式的权重,使更新方向更聚焦于判别性方向。

潜在局限性

多步推理中的累积误差:DelTA的判别分数估计依赖于当前策略生成的响应。如果策略在某个推理步骤存在系统性偏差(如倾向于使用某种错误的解题模式),生成的响应可能无法提供足够的对比信息来纠正这一偏差。在这种情况下,DelTA可能放大现有偏差而非修正它。

计算敏感性:判别分数的计算涉及Token梯度的L2范数。当梯度向量维度极高(如数十亿参数)时,数值稳定性可能成为问题。虽然层限制代理缓解了这一问题,但代理的准确性尚未在极端规模模型上得到验证。

负侧Token的语义不确定性:DelTA对负侧Token的判别分数定义是对称的(相对于正侧)。然而,“错误答案”可能由各种原因导致:计算错误、逻辑跳跃、概念混淆等。将这些不同类型的错误归纳到单一的负侧质心可能过于简化。

适用性建议

适合采用DelTA的场景

  • 任务具有明确的可验证答案(数学、代码、形式推理)
  • 训练数据中正负响应存在大量结构重叠
  • 计算资源允许约10%的额外训练时间
  • 团队对RLVR训练动力学有基本理解

需谨慎考虑的场景

  • 任务缺乏明确的验证标准(开放式生成、创意写作)
  • 训练数据中正负响应结构差异显著
  • 极端规模模型(>100B参数)上的数值稳定性考量
  • 团队缺乏RLVR调优经验,需优先保证训练稳定性

前瞻性分析

理论扩展方向

DelTA的判别器视角开启了RLVR理论分析的新路径。当前框架假设正负两侧的质心在Token梯度空间中线性可分,但对于复杂的推理任务,更复杂的判别边界可能更合适。未来可探索:

非线性判别器扩展:将线性判别规则扩展为核方法或深度网络,可能捕捉更复杂的Token梯度分布模式。然而,这需要在保持计算效率的同时,避免引入额外的训练不稳定性。

层次化Token结构建模:当前的Token系数是独立计算的。考虑Token之间的依赖关系(如同一推理步骤内的Token应该有相似的系数)可能进一步提升判别精度。

工程实践演进

大规模部署的优化:当前的梯度代理策略(层限制)在大规模部署中的稳定性需要进一步验证。可能的优化方向包括:梯度缓存复用、异步系数更新、以及基于小批量统计的近似估计。

与现有框架的集成:DelTA作为目标函数级别的改进,理论上可以与动态采样、课程学习等其他技术组合。这些组合效果的系统性评估是实际部署前的必要步骤。

领域泛化潜力

论文报告了代码生成和不同模型骨架上的泛化实验,结果显示一致的改进效果。这表明判别器视角具有跨领域的普适性。未来可探索的方向包括:

多模态推理:在视觉-语言模型的推理任务中,文本Token和视觉Token的梯度特性存在差异。如何将判别器视角扩展到异构Token空间是开放问题。

强化学习微调:DelTA的思想可能扩展到传统强化学习中的状态-动作信用分配问题,尤其是在稀疏奖励场景下。

结论

DelTA通过判别器视角重新审视RLVR的训练动力学,揭示了响应级奖励如何隐式决定Token级概率变化的核心机制。这一理论框架不仅解释了RLVR的稀疏Token更新现象,还提供了可直接操作的设计原则。实验表明,基于判别信号重加权Token梯度的方法在多个基准上持续优于现有方法,且Token系数本身能有效识别高学习价值的位置。

对于实践者而言,DelTA提供了一个无需额外标注或模型的训练改进方案,适合已有RLVR训练流水线的无缝集成。对于研究者而言,判别器视角为理解序列决策的信用分配问题提供了新的分析工具。随着大语言模型在复杂推理任务中的重要性持续提升,对训练动力学的深入理解将成为推动模型能力边界的关键因素。

参考文献

  1. Zhang, K., Wu, W., & Lin, Y. (2026). DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards. arXiv:2605.21467
  2. Yu, Q., et al. (2025). DAPO: An Open-Source Framework for RLHF. arXiv preprint.
  3. Shao, Z., et al. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv:2402.03300
  4. Meng, F., et al. (2026). Understanding Token-Level Dynamics in RLVR Training. arXiv preprint.
  5. Ma, Y., et al. (2026). Token Importance Estimation for LLM Fine-tuning. arXiv preprint.
  6. Cohen, J., et al. (2013). Efficient Online Linear Discriminative Learning. ICML 2013.
  7. Khosla, P., et al. (2020). Supervised Contrastive Learning. NeurIPS 2020.
  8. Wang, H., et al. (2025). Forking Tokens for Better LLM Training. ICLR 2025.