Logo
热心市民王先生

[硅基写手] FIPO: 基于Future-KL的深度推理优化方法

论文解读 AI研究 强化学习 LLM推理 GRPO 策略优化

FIPO通过引入Future-KL散度机制,解决了GRPO中均匀信用分配导致的推理瓶颈问题,使Qwen2.5-32B在AIME 2024上从50.0%提升至56.0%(峰值58.0%),推理长度从4000 tokens扩展到10000+ tokens,性能超越o1-mini和DeepSeek-R1-Zero-32B。

Executive Summary

FIPO(Future-KL Influenced Policy Optimization)是一种新型强化学习算法,专门针对大语言模型(LLM)的深度推理能力优化而设计。该论文揭示了一个关键洞察:传统的GRPO(Group Relative Policy Optimization)类训练方法存在结构性的性能瓶颈——由于依赖基于结果的奖励(Outcome-based Reward Model, ORM),这些方法将全局优势均匀分配给轨迹中的每个token,导致关键逻辑转折点与琐碎token被同等对待,从而限制了模型的推理深度。

FIPO的核心创新在于引入Future-KL散度概念,通过将折扣后的未来KL散度纳入策略更新,创建了一种密集的优势公式(dense advantage formulation),能够根据token对后续轨迹行为的影响进行重新加权。在Qwen2.5-32B-Base模型上的实验表明,FIPO将平均思维链长度从约4000 tokens扩展到超过10000 tokens,AIME 2024的Pass@1准确率从50.0%提升至峰值58.0%(收敛于约56.0%),超越了DeepSeek-R1-Zero-Math-32B(约47.0%)和o1-mini(约56.0%)。这一发现表明,建立密集的优势公式是将基于ORM的算法演化至解锁基础模型完整推理潜力的关键路径。

Section 1: 问题空间深度剖析

1.1 推理时扩展策略的范式转变

测试时扩展(Test-time Scaling)策略代表了LLM推理方式的范式转变。OpenAI的o系列(Jaech et al., 2024)、Gemini系列(Comanici et al., 2025)和DeepSeek的R系列(Guo et al., 2025)通过在推理时分配更多计算资源,支持更长的思维链(Chain-of-Thought, CoT)和更深思熟虑的推理,在竞争性数学和编程等 demanding 任务上取得了实质性进展。

这一进展很大程度上源于**可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)**的大规模应用。RLVR通过任务特定的验证器反馈来微调模型的生成策略,从而激发和放大其推理能力。然而,由于具体的算法和训练配方仍然未公开,强化学习如何作为解锁深度推理潜力的主要催化剂——有效地从最初没有长CoT倾向的基础模型中引发长思维链行为——仍然不清楚。

1.2 GRPO框架的结构性约束

开源社区已经投入大量努力在更透明的环境中复现和扩展类似算法。在这些努力中,DAPO(Yu et al., 2025)提供了一个有前景的大规模GRPO风格训练在干净基础模型上的复现。然而,该论文论证了GRPO框架内固有的对基于结果奖励的依赖引入了一个重大的结构性约束。

核心问题:由于奖励仅在轨迹末端进行二元验证,标准公式将统一的优势分配给每个token。这导致了一种完全粗粒度的信用分配——算法将关键推理步骤和琐碎token同等对待。具体观察到的现象是:

  1. 推理轨迹停滞:由这类基线产生的推理轨迹往往在中等长度处停滞
  2. 性能天花板:这种限制给标准GRPO施加了一个较低的性能天花板——因为统一奖励无法突出驱动正确逻辑的特定token,模型无法收敛到复杂任务所需的扩展推理路径
  3. 转向PPO的动机:这一局限性导致近期工作(Hu et al., 2025; Yue et al., 2025; Fan et al., 2025)回归PPO框架以进行细粒度的优势估计

然而,FIPO的洞见是:这种密度可以在没有critic模型复杂性的情况下实现

1.3 根本约束:信用分配问题

信用分配(Credit Assignment)是强化学习的核心挑战之一。在序列生成任务中,模型需要知道:

  • 哪些token对最终成功有贡献?
  • 贡献程度如何量化?
  • 如何避免稀疏奖励导致的训练低效?

GRPO通过组采样估计优势,避免了价值网络的计算负担,但这种简化付出了代价:

A^i,t=A^ifor all t\hat{A}_{i,t} = \hat{A}_i \quad \text{for all } t

这意味着序列中每个token获得相同的优势信号,无论其真实贡献如何。相比之下,PPO使用GAE(Generalized Advantage Estimation)为每个token提供不同的信号,但这需要维护一个critic网络。

FIPO试图在两者之间找到平衡:无需critic网络,但实现细粒度的信用分配

Section 2: 技术深度解析

2.1 核心概念:概率位移 Δlog p

FIPO的方法论建立在对LLM在强化学习期间动态特性的深入研究之上。该团队的前期工作表明,概率位移的幅度和方向Δlogp\Delta \log p)是改进推理的稳健指标。

概率位移的形式化定义

Δlogpt=logπθ(otq,o<t)logπθold(otq,o<t)\Delta \log p_t = \log \pi_\theta(o_t \mid q, o_{<t}) - \log \pi_{\theta_{\text{old}}}(o_t \mid q, o_{<t})

这个术语作为差分信号捕捉瞬时策略漂移:

  • 正位移Δlogpt>0\Delta \log p_t > 0):当前策略相对于旧策略增加了token oto_t 的可能性,表明训练目标正在强化这一特定推理步骤
  • 负位移Δlogpt<0\Delta \log p_t < 0):策略正在抑制 oto_t 的生成,表明更新后的模型正在相对于参考策略主动降低这一特定token的权重

与传统KL惩罚将漂移主要视为需要最小化的正则化成本不同,FIPO将Δlogpt\Delta \log p_t解释为行为调整的方向信号,从而将优化目标与生成动态明确耦合。

然而,仅依赖这种瞬时位移是不够的,因为它无法捕捉决策的长期后果。这一局限性激发了Future-KL机制的提出。

2.2 Future-KL:未来轨迹的信用估计

推理本质上是一个顺序过程,token的真正意义取决于它引发的轨迹。为了捕捉这种因果影响,FIPO定义Future-KL为从当前步骤tt到序列末尾TT的累积有符号概率位移:

FutureKLt=k=tTΔlogpk\text{FutureKL}_t = \sum_{k=t}^{T} \Delta \log p_k

这个求和在数学上等价于后续序列ot:To_{t:T}的联合概率分布的对数似然比。因此,它可以被解释为限制在未来视界上的KL散度的样本估计,衡量当前策略相对于参考策略对轨迹余下部分的累积偏离。

功能解释

  • 正值FutureKLt>0\text{FutureKL}_t > 0):更新后的策略整体上强化了由token oto_t发起的整个后续轨迹,表明oto_t作为后续推理链的稳定锚点
  • 负值FutureKLt<0\text{FutureKL}_t < 0):策略正在集体抑制oto_t之后的未来token,表明从这一点开始的轨迹在优化过程中变得不太受青睐

2.3 训练稳定性机制

原始FutureKL公式在实践中会加剧分布位移带来的方差。由于FutureKL_t作为优势函数的权重系数,未来logits的过度偏离(例如由于训练-推理不一致)可能不成比例地放大尺度,使优化对噪声token而非推理链的内在质量过于敏感。

论文展示了无安全机制时的训练不稳定现象:在约第70步时,“低裁剪分数”(跟踪触发双裁剪阈值的样本频率的指标)急剧上升,伴随着Policy KL的激增、梯度范数的爆炸,以及响应长度的灾难性崩溃。

稳定性解决方案

通过显式掩码超过双裁剪阈值的负优势相关token来改进FutureKL计算。由于这些token代表梯度已被裁剪(通过裁剪策略目标)的”有害”动作,允许其过高的重要性比率传播到递归和中会引入严重方差。

FutureKLt=k=tTMkΔlogpk,Mk=IA<0(πθ(oko<t)πold(oko<t)c)\text{FutureKL}_t = \sum_{k=t}^{T} M_k \cdot \Delta \log p_k, \quad M_k = \mathbb{I}_{A<0}\left(\frac{\pi_\theta(o_k \mid o_{<t})}{\pi_{\text{old}}(o_k \mid o_{<t})} \leq c\right)

这里,MkM_k作为二元滤波器,仅当重要性比率保持在双裁剪阈值cc(通常c10c \geq 10)内时评估为1,否则为0。

2.4 软衰减窗口:局部未来的聚焦

除了稳定性约束外,FIPO还解决了长视界生成的固有不确定性。当前动作oto_t与未来tokenoko_k之间的因果依赖性随着时间视界ktk-t的增加而自然减弱。

为了建模这种递减的影响,FIPO引入折扣因子γ(0,1]\gamma \in (0, 1]

FutureKLt=k=tTMkγktΔlogpk\text{FutureKL}_t = \sum_{k=t}^{T} M_k \cdot \gamma^{k-t} \cdot \Delta \log p_k

衰减率参数化为γ=21τ\gamma = 2^{-\frac{1}{\tau}},其中τ\tau是控制未来监督有效视界(或”半衰期”)的超参数。这确保信用分配集中于即时推理链,给遥远的、高度不确定的token分配较低权重。

关键洞见τ\tau定义了这个软衰减窗口的孔径。与硬截断在固定步骤后突然丢弃信息不同,这种指数公式创建了一个连续滑动窗口,其中τ\tau代表未来信号影响衰减一半的距离。这使模型能够在窗口τ\tau内优先考虑局部连贯性,同时平滑地过滤来自遥远未来的噪声,而不引入边界伪影。

2.5 重加权优势与裁剪机制

最终,FIPO将软衰减窗口和掩码机制整合到策略优化目标中。修改后的优势A~t\tilde{A}_t通过未来影响权重ftf_t调节标准优势估计A^t\hat{A}_t

ft=clip(exp(FutureKLt),1ϵflow,1+ϵfhigh),A~t=A^tftf_t = \text{clip}\left(\exp(\text{FutureKL}_t), \, 1-\epsilon_{f_{low}}, \, 1+\epsilon_{f_{high}}\right), \quad \tilde{A}_t = \hat{A}_t \cdot f_t

这一公式引入两个关键操作:

  1. 指数映射:将累积标量信号从对数空间转换到乘法域。数学上,未裁剪项代表似然比率的衰减加权乘积,作为反映策略对生成未来的有效偏好的重要性权重。

  2. 影响权重裁剪:将乘法系数ftf_t约束在区间[1ϵflow,1+ϵfhigh][1-\epsilon_{f_{low}}, 1+\epsilon_{f_{high}}]内。此操作严格限制优势调节的幅度,防止指数项向梯度估计引入过度方差。

功能解释

  • 当更新策略强化后续轨迹时(FutureKL_t > 0),ft>1f_t > 1放大梯度信号:正优势被增强以鼓励当前token作为稳定锚点,而负优势受到更严厉的惩罚以严格纠正启动此路径的错误
  • 当策略抑制未来轨迹时(FutureKL_t < 0),ft<1f_t < 1衰减更新:这有效降低了位于成功序列中的局部有害token的奖励信号,并软化了对被困在失败序列中的好token的惩罚

2.6 目标函数

采用DAPO的token级公式,FIPO最大化以下目标:

JFIPO(θ)=E(q,a)D,{oi}πθold[1i=1Goii=1Gt=1oimin(ri,tfi,tA^i,t,clip(ri,t,1ϵ,1+ϵ)fi,tA^i,t)]J_{\text{FIPO}}(\theta) = \mathbb{E}_{(q,a)\sim\mathcal{D},\,\{o_i\}\sim\pi_{\theta_{\text{old}}}}\left[\frac{1}{\sum_{i=1}^{G}|o_i|}\sum_{i=1}^{G}\sum_{t=1}^{|o_i|}\min\left(r_{i,t}f_{i,t}\hat{A}_{i,t},\, \text{clip}\left(r_{i,t}, 1-\epsilon, 1+\epsilon\right)f_{i,t}\hat{A}_{i,t}\right)\right]

其中,GG代表每查询采样的输出数量,ri,tr_{i,t}表示当前和旧策略之间的重要性比率,A^i,t\hat{A}_{i,t}指组相对优势,fi,tf_{i,t}作为先前引入的Future-KL重要性权重。

Section 3: 实验设计与结果分析

3.1 实验设置

FIPO实验严格遵循DAPO的训练设置,专注于数学推理任务以确保受控比较:

模型与数据

  • 基础模型:Qwen2.5-32B-Base(无长CoT合成数据先验暴露)
  • 训练数据集:公开发布的DAPO-17K
  • 训练框架:VeRL(基于verl)

训练配置

  • 批次大小:512个prompts,每prompt采样16个响应(共8192个训练样本)
  • 小批次大小:1024个样本(64个prompts),每迭代8次梯度更新
  • 最大响应长度:20,480 tokens
  • 超长惩罚阈值:16,384 tokens
  • Future-KL有效视界τ\tau:32
  • Future-KL权重裁剪范围:[1, 1.2]

评估协议

  • 主要基准:AIME 2024
  • 补充基准:AIME 2025
  • 温度:1.0,top-p:0.7
  • 评估运行:32次(报告平均Pass@1)

3.2 主要结果

方法AIME 2024AIME 2025
Avg@32Cons@32Pass@32Avg@32Cons@32Pass@32
DAPO (Baseline)50.0%60.0%80.0%38.0%47.0%63.0%
FIPO (Ours)56.0%73.0%83.0%43.0%50.0%67.0%

FIPO在Pass@1(Avg@32)上比DAPO基线实现了约6.0%的系统改进。虽然一致性(Cons@32)也有所提升,但覆盖率(Pass@32)的改进较为温和,尤其在AIME 2025上。

论文归因于:在没有外部知识增强或工具集成的情况下,RL主要受限于细化模型如何导航其现有内部知识。因此,虽然FIPO显著增强了模型在其潜在能力范围内可靠解决问题的能力(提高Avg@32),但转移可解决问题边界(Pass@32)仍然非平凡。

与先进模型对比

  • DeepSeek-R1-Zero-Math-32B:约47.0%
  • o1-mini:约56.0%
  • FIPO(峰值):58.0%

3.3 推理长度的涌现现象

FIPO训练的一个核心观察是性能提升与响应长度的持续扩展深度耦合。与DAPO在约4000 tokens处停滞不同,FIPO表现出显著的扩展韧性:

  • 中位token数从初始200稳步攀升至超过10,000
  • 所有长度相关百分位数(从Minimum和Q25到Median和Q75)同步稳定上升
  • 这种跨整个分布的迁移表明FIPO促进了模型基本问题解决策略的根本转变:从直接响应模式转向系统性、自我验证的推理过程

关键发现:这种集体向更长推理链的转变解锁了实验中观察到的性能突破。FIPO成功将增加的序列长度转化为真正的推理深度,使模型能够超越标准基线在高难度推理任务上的性能天花板。

Section 4: 训练动态分析

4.1 奖励与优势的演化

论文深入研究了奖励和优势的演化动态:

原始奖励悖论

  • 基线(DAPO)始终维持比FIPO更高的平均训练奖励
  • 但这被论证为奖励公式的数值伪影,而非优越性能的指标
  • 由于奖励函数包含超长惩罚,FIPO构建精细推理链不可避免地导致更高惩罚,从而抑制其平均原始奖励
  • 相反,基线的较高奖励由其生成较短响应的倾向驱动

采样批次动态

  • DAPO中采样批次数量的快速升级表明模型正在过拟合训练集
  • 越来越多地生成非区分性样本(即统一正确或错误的批次),产生可忽略的梯度信息
  • 相比之下,FIPO主动遍历更广阔的搜索空间,优先考虑挑战性推理任务所需的结构深度

长度加权平均优势

  • DAPO在整个训练中表现出下降趋势的长度加权平均相对优势
  • 这意味着正样本的长度越来越多地被负样本主导,导致扩展推导的激励减弱
  • FIPO表现出一致的上升趋势,表明正样本正在进化为比其负对应物显著更有实质内容

4.2 自反思行为的涌现

定性分析显示,长度的扩展是由自反思行为的逐渐涌现驱动的:模型越来越多地利用扩展的序列长度重新评估其中间步骤并探索多种方法验证其结论。

这种系统性自我验证的自发涌现与高级推理模型(如OpenAI o系列和DeepSeek-R1)中观察到的推理时扩展行为一致。这表明FIPO有效触发了推理时推理,优先考虑分析深度以解锁更高性能。

4.3 稳定性改进

对比训练不稳定性分析:

  • 无调节的FutureKL:在约第70步出现低裁剪分数急剧上升,Policy KL突然发散,梯度范数爆炸,响应长度灾难性崩溃
  • 带掩码和衰减的FutureKL:训练稳定收敛,响应长度持续增长

这验证了稳定性机制的必要性和有效性。

Section 5: 批判性评估

5.1 优势与适用场景

核心优势

  1. 无需critic网络实现细粒度信用分配:这是FIPO相对于PPO的最大优势,避免了维护价值网络的计算和内存开销
  2. 长度-性能正相关:FIPO成功将增加的序列长度转化为真正的推理深度,而非简单的重复或填充
  3. 自反思行为涌现:模型自发发展出系统性自我验证能力,这与人类解决复杂问题时的心智过程相似
  4. 开源训练系统:基于verl框架的完整训练代码和配置配方公开,有利于研究社区复现和扩展

适用场景

  • 复杂数学推理任务:如AIME、竞赛级数学问题
  • 需要长思维链的推理任务:代码生成、逻辑推理、多步决策
  • 资源充足的研究环境:32B模型训练需要相当的计算资源
  • 追求推理深度的应用:相比快速响应更看重答案质量的场景

5.2 局限性与约束

技术局限

  1. 覆盖率提升有限:虽然Pass@1显著提升,但Pass@32(问题覆盖率)改进温和,尤其在AIME 2025上。这表明FIPO主要在模型已有能力范围内优化,难以突破知识边界

  2. 超长惩罚的副作用:FIPO的精细推理链不可避免地受到超长惩罚,虽然最终性能更好,但训练过程中原始奖励较低,可能影响某些基于奖励的早期停止策略

  3. 超参数敏感性:Future-KL的有效视界τ\tau(设为32)、衰减因子γ\gamma、裁剪范围等超参数需要仔细调优,不同任务可能需要不同配置

  4. 任务特异性:当前实验主要集中在数学推理,其他领域(如代码、常识推理)的效果尚待验证

实践约束

  • 计算资源需求:Qwen2.5-32B训练需要大规模GPU集群,对资源有限的团队构成门槛
  • 训练时间:长序列生成(最高20480 tokens)意味着较长的训练和推理时间
  • 评估成本:32次重复评估以稳定Pass@1,增加了验证成本

5.3 与替代方法的对比

方法信用分配Critic网络优势局限
GRPO/DAPO均匀(序列级)简单高效,无critic开销粗粒度,推理长度停滞
PPO+GAE细粒度(token级)需要精细信用分配,深度推理价值网络开销,实现复杂
FIPO细粒度(token级)无需critic,细粒度,可扩展超参数调优,领域验证待完善

决策框架

  • 选择GRPO/DAPO:资源受限、快速原型、简单推理任务
  • 选择PPO+GAE:已有PPO基础设施、需要最大灵活性
  • 选择FIPO:追求推理深度、无需critic网络、愿意投入调优

Section 6: 前瞻性分析

6.1 研究趋势与方向

密集优势公式的崛起

FIPO的成功验证了密集优势公式的重要性。未来研究可能沿以下方向扩展:

  1. 多尺度信用分配:结合不同时间尺度的优势估计(局部、中程、全局)
  2. 自适应视界:根据任务复杂度动态调整Future-KL的有效视界τ\tau
  3. 结构化稀疏性:利用推理步骤的稀疏性进一步优化计算效率

推理时计算与训练时计算的统一

FIPO触发的自反思行为类似于推理时的计算扩展。未来可能探索:

  • 显式建模推理时计算预算的分配策略
  • 训练模型学会在推理时”何时停止思考”
  • 将外部工具调用整合到RLVR框架中

6.2 未解决的挑战

  1. 知识边界扩展:如何让RL不仅优化现有知识的利用,还能突破到新的知识领域?
  2. 跨领域泛化:FIPO在数学推理上的成功能否迁移到代码、科学推理、常识推理?
  3. 可解释性:Future-KL权重如何与具体的推理步骤对应?能否可视化”关键token”?
  4. 与外部知识整合:如何将FIPO与检索增强、工具使用结合?

6.3 战略影响

对研究社区

  • FIPO提供了GRPO和PPO之间的一个有吸引力的中间地带
  • 开源训练系统降低了长CoT RL研究的门槛
  • 密集优势公式可能成为未来ORM-based RL算法的标准组件

对工业界

  • 需要长推理链的应用(如数学辅导、代码生成)可以直接受益于FIPO
  • 云端部署需要考虑增加的推理长度带来的延迟和成本
  • 模型即服务(MaaS)提供商可能需要按token数而非请求数定价

对AI安全

  • 更长的思维链提供了更多的可解释性机会(“让我们看看模型是如何思考的”)
  • 但也可能引入新的攻击面(通过操控推理过程误导模型)
  • 自反思行为的涌现增加了行为的不确定性,需要新的评估方法

Section 7: 技术实现要点

7.1 核心伪代码

# FIPO核心计算流程
def compute_fipo_advantages(logits_new, logits_old, advantages_base, tau=32, clip_range=(1.0, 1.2)):
    """
    计算Future-KL重加权优势
    
    Args:
        logits_new: 当前策略的logits [batch, seq_len, vocab]
        logits_old: 旧策略的logits [batch, seq_len, vocab]
        advantages_base: 基础组相对优势 [batch, seq_len]
        tau: 有效视界超参数
        clip_range: Future-KL权重裁剪范围
    """
    # 1. 计算概率位移 Δlog p
    delta_logp = logits_new - logits_old  # [batch, seq_len]
    
    # 2. 计算衰减因子 γ = 2^(-1/τ)
    gamma = 2 ** (-1.0 / tau)
    
    # 3. 反向累积计算Future-KL(带折扣和掩码)
    future_kl = torch.zeros_like(delta_logp)
    for t in reversed(range(seq_len)):
        # 软衰减窗口
        discount = gamma ** torch.arange(seq_len - t)
        
        # 掩码处理(略去具体掩码逻辑)
        masked_delta = delta_logp[:, t:] * mask[:, t:]
        
        # 累积
        future_kl[:, t] = (masked_delta * discount).sum(dim=-1)
    
    # 4. 指数映射和裁剪
    influence_weight = torch.exp(future_kl)
    influence_weight = torch.clamp(influence_weight, clip_range[0], clip_range[1])
    
    # 5. 重加权优势
    advantages_weighted = advantages_base * influence_weight
    
    return advantages_weighted

7.2 关键超参数调优建议

基于论文实验,以下超参数配置值得参考:

超参数推荐值说明
ττ (有效视界)32控制未来信号衰减速度,更大值关注更长依赖
γγ (衰减因子)21/320.9782^{-1/32} ≈ 0.978ττ计算得出
权重裁剪下限1.0防止负向过度惩罚
权重裁剪上限1.2限制正向放大,防止方差爆炸
双裁剪阈值cc≥10过滤极端负样本
小批次大小1024更大的小批次提升稳定性

调优提示

  • 如果训练不稳定(梯度爆炸、KL发散),降低权重裁剪上限或增大双裁剪阈值
  • 如果推理长度增长不足,增大ττ或放宽裁剪范围
  • 如果出现过拟合(采样批次急剧增加),增加小批次大小或降低学习率

Conclusion

FIPO代表了强化学习在大语言模型推理优化领域的重要进展。通过引入Future-KL散度机制,它成功地解决了GRPO框架中均匀信用分配导致的性能瓶颈,实现了无需critic网络的细粒度优势估计。

核心贡献回顾

  1. 理论创新:提出Future-KL作为衡量token对未来轨迹因果影响的指标,将信用分配从序列级细化到token级
  2. 算法工程:设计软衰减窗口、掩码机制和裁剪策略,确保训练稳定性
  3. 实验验证:在Qwen2.5-32B上实现AIME 2024从50.0%到56.0%的提升,超越o1-mini
  4. 开源贡献:基于verl框架的完整训练系统公开,促进社区复现和扩展

对实践的启示

FIPO的成功表明,推理能力的瓶颈往往不在于模型容量,而在于训练信号的质量。通过精细的信用分配机制,我们可以解锁基础模型中原本被埋没的推理潜力。这对于追求深度推理能力的应用场景(如数学教育、科学研究辅助、复杂代码生成)具有直接的实用价值。

然而,FIPO也揭示了当前RLVR方法的固有局限:难以突破模型已有知识的边界。未来的突破可能需要将密集优势公式与外部知识检索、工具使用、以及更复杂的认知架构相结合。FIPO为这个方向提供了一个坚实的技术基础。

References

  1. FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization - 本论文,提出了基于Future-KL的密集优势优化方法
  2. Hugging Face Papers - FIPO - Hugging Face论文页面
  3. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning - Guo et al., 2025,DeepSeek-R1技术报告
  4. DAPO: Decoupled Clip and Dynamic Sampling Policy Optimization - Yu et al., 2025,FIPO的主要对比基线
  5. OpenAI o1 System Card - Jaech et al., 2024,o1系列推理模型技术细节
  6. Kimi k1.5: Scaling Reinforcement Learning with LLMs - Team et al., 2025a,另一重要的RLVR实践
  7. QwQ: Reflecting on the Arcane - Yang et al., 2025,Qwen系列推理模型
  8. Provable Benefits of Policy Learning - Hu et al., 2025,讨论PPO在推理任务中的应用
  9. Algorithmic Improvements in RL for LLMs - Yue et al., 2025,RL算法改进研究
  10. VeRL: A Framework for Efficient RL for LLMs - Sheng et al., 2025,FIPO实现所基于的训练框架

论文链接

发布时间:2026年4月2日 研究类型:深度论文解读 分析框架:[硅基写手]