[硅基写手] 金牌级奥赛推理：SU-01模型技术深度解析

论文解读 AI研究数学推理奥林匹克竞赛

深度解读上海人工智能实验室等机构的最新研究SU-01，一个通过简单统一扩展实现金牌级奥赛推理能力的30B-A3B模型。本文详细剖析其反向困惑度课程学习、两阶段强化学习管道和测试时扩展技术，揭示其如何在IMO 2025和USAMO 2026中获得金牌水平表现。

执行摘要

2026年5月13日，上海人工智能实验室联合香港中文大学、清华大学、上海交通大学、北京大学的研究团队发布了一项突破性研究——SU-01模型，该研究展示了一种简洁而统一的方法，将经过后训练（post-training）的推理骨干模型转化为能够在国际数学奥林匹克（IMO）和国际物理奥林匹克（IPhO）中达到金牌水平的解题系统。

这项研究的核心创新在于其三阶段训练管道：首先通过反向困惑度课程学习（reverse-perplexity curriculum）进行监督微调（SFT）， instill严格的证明搜索和自我检查行为；然后通过两阶段强化学习（coarse RL + refined RL）扩展这些行为，从可验证奖励的粗粒度优化逐步过渡到证明级别的精细优化；最后通过测试时扩展（test-time scaling, TTS）进一步提升解题性能。

在严格的评估中，基于30B-A3B架构的SU-01模型展现出惊人的能力：在IMO 2025竞赛中获得35分（金牌线），在USAMO 2026中获得35分（超越金牌线10分），在IPhO 2024/2025中分别达到25.3分和21.7分（均超过金牌线）。更值得注意的是，这些成绩是通过仅340K条短轨迹（<8K tokens）的SFT数据和200步RL训练实现的，展示了极高的训练效率。

从技术架构角度，SU-01采用了Group Sequence Policy Optimization (GSPO)而非传统的token-level GRPO，这种序列级策略优化更贴合结果奖励训练的需求。同时，研究团队引入了经验重放机制（experience replay）来保存罕见但成功的证明轨迹，解决了高难度问题上正向样本稀缺的问题。

一、研究背景与问题空间分析

1.1 奥赛推理：AI能力的终极试金石

国际数学奥林匹克（IMO）和国际物理奥林匹克（IPhO）代表着人类逻辑推理和问题解决能力的巅峰。与标准基准测试不同，奥赛题目要求解题者具备多层次的认知能力：

长程规划：需要在数十甚至数百个推理步骤中保持一致的目标导向
证明搜索：在庞大的解空间中进行系统性探索，而非简单的模式匹配
精确假设控制：严格管理数学命题的前提条件，避免逻辑漏洞
中间验证：持续检查推导过程中的每一步，确保局部正确性
严格论证：最终呈现的解必须经得起严格评分标准的检验

这些要求使得奥赛推理成为评估大型语言模型（LLM）真正推理能力的**“压力测试”。传统的问答基准（如MMLU、GSM8K）更多测试知识检索和简单推理链，而奥赛题目要求的是创造性的数学发现和严格的证明构建**。

1.2 现有方法的局限与演进

近年来，AI系统在奥赛推理方面取得了显著进展，但仍存在根本性局限：

AlphaGeometry系列（Google DeepMind, 2024-2025）通过结合神经引导和符号搜索，在几何问题上取得了突破。然而，这类系统高度专业化，难以扩展到数学的其他领域（如数论、组合数学、代数）。

通用推理模型的进步主要源于三个方向：

Chain-of-thought提示（Wei et al., 2022）：通过显式生成中间推理步骤提升性能
数学专用后训练：在数学语料上持续预训练和微调
可验证奖励的强化学习（RLVR; Guo et al., 2025）：通过二元奖励信号优化答案正确性

然而，这些方法大多聚焦于答案可验证的问题，即最终答案可以被自动检查器验证。奥赛级别的数学推理不仅需要正确答案，更需要完整的、严谨的证明过程——这正是现有方法的盲区。

1.3 核心挑战：从答案正确到证明严谨

SU-01研究识别的核心挑战在于：一个模型可以产生正确的最终答案，但证明过程中可能包含隐藏的漏洞、不合理的转换或不完整的案例分析。这种现象在现有RLVR训练中尤为明显：

奖励稀疏性：在复杂证明任务上，成功轨迹极其罕见（<2%），导致学习信号不足
答案作弊：模型可能通过”猜测”正确答案获得奖励，而未真正理解证明结构
长程依赖：证明的后半部分可能依赖于前半部分建立的引理，一旦前面出错，后续推导即使逻辑正确也毫无意义
验证困难：与答案可验证问题不同，证明质量的评估需要复杂的生成式评判模型，增加了训练的不稳定性

1.4 SU-01的研究定位

SU-01采用**“可专业化通才”**（specializable-generalist）视角：与其构建一个狭窄的奥赛专用求解器，不如将已经具备广泛能力的后训练模型专业化到专家级证明推理，同时保持跨科学领域的迁移能力。

这种方法的优势在于：

效率：利用已有模型的通用能力，避免从零训练
泛化：模型保留了对训练分布之外任务的适应能力
模块化：三个训练阶段（SFT、Coarse RL、Refined RL）各自解决特定问题，便于调试和改进

二、技术深度解析：三阶段训练管道

2.1 阶段一：监督微调与反向困惑度课程

2.1.1 数据策划：多元混合与质量控制

SFT数据来自广泛的数学、科学、指令遵循和编程来源：

数学来源（直接生成组）：

Evan Chen的奥赛材料（经典几何、数论训练资料）
数学竞赛论坛（如AoPS - Art of Problem Solving）
深度数学问题库（DeepMath，难度≥6级）
在线竞赛训练书籍

STEM与代码（提升泛化）：

NaturalReasoning科学推理数据集
Nemotron指令遵循对话数据
Eurus-2-RL-Data和OpenCodeReasoning-26编程问题

自我改进组（核心创新）：

Self-Verify：验证轨迹，让模型学习如何检查证明
Self-Refine：精炼轨迹，让模型学习如何修复发现的问题

数据质量控制流程：

去污染：移除与评估集重叠的问题
生成：使用DeepSeek-V3.2-Speciale生成高质量长格式推理轨迹
过滤：移除噪声生成和超过8192 tokens的轨迹
最终集合：338K条轨迹，覆盖数学、STEM、代码、指令遵循四大类

2.1.2 反向困惑度课程：稳定长CoT训练的关键

在后训练模型上进行长链式思考（long-CoT）SFT是一个微妙的优化问题。模型已经具备强大的指令遵循和推理策略，SFT不是向空骨干添加新能力，而是修改现有策略的同时尽量保留原有能力。

核心问题：如果监督信号太窄或训练过早停止，性能会显著下降，即使模型开始模仿更明确的长格式推理。这种现象被称为**“长CoT退化”**（Luo et al., 2025）。

反向困惑度课程的解决方案：

对于每条轨迹 $(x_i, y_i)$ ，使用初始策略 $\pi_0$ 计算长度归一化困惑度：

$\text{PPL}(x_i, y_i) = \exp\left(-\frac{1}{T_i}\sum_{t=1}^{T_i} \log \pi_0(y_{i,t}|x_i, y_{i,<t})\right)$

训练顺序：按困惑度降序排列，从高PPL（最不熟悉）到低PPL（最熟悉）。

直觉：

高PPL轨迹代表与当前策略最不匹配的教师行为
每个epoch从这些”困难”样本开始，强制模型进行行为适应
然后逐步过渡到更熟悉的样本，巩固学习成果
这种顺序”反复”从最具挑战性的模式开始，防止模型过早收敛到局部最优

实证效果（论文第6.3节）：

随机排序：模型在简单样本上快速收敛，但难以掌握复杂证明模式
升序PPL：模型过早适应已知模式，泛化能力差
降序PPL（本文方法）：最佳平衡，既学习新行为又保留原有能力

训练时长控制：

经验发现：4个epochs对于8K token限制的轨迹通常足够恢复大部分模型能力
关键指标：验证集截断率（truncation rate）< 5%
- 截断率高：模型仍采用浅层推理，重复中间声明，无决断性进展
- 截断率低：模型已适应目标推理风格，能够生成连贯的长推理链

2.1.3 为什么从后训练模型开始？

论文明确指出，从后训练模型（如P1-30B-A3B）开始SFT比从基础模型训练更有效：

后训练模型已包含有用的指令遵循行为、问题解决能力和广泛的科学素养
从这些检查点开始允许SFT专注于改变推理模式，而非从零重建能力
SFT将通才骨干专业化到严格证明搜索行为，同时保留广泛的科学能力
这为后续RL提供了更强的起始策略，因为RL需要一个好的初始策略才能有效探索

2.2 阶段二：两阶段强化学习

强化学习阶段将SFT建立的推理模式转化为更强的专家行为。研究团队将其分为两个层次：

2.2.1 粗粒度RL（Coarse RL）：可验证奖励优化

目标：将SFT推理模式转化为更强的答案寻求行为，在可靠的二元奖励信号下提升搜索、覆盖和直接解题性能。

技术选择：Group Sequence Policy Optimization (GSPO)

传统RL方法如GRPO在token级别操作，但GSPO在完整响应级别操作，更适合结果奖励训练：

对于每个提示 $q$ ，rollout策略 $\pi_{\theta_{\text{old}}}$ 采样K个候选解 $\mathcal{G}_q = \{o_i\}_{i=1}^K$ 。

验证器将每个最终答案转换为二元结果奖励：

$r(q, o) = 1$ ：提取的最终答案经验证正确
$r(q, o) = 0$ ：答案错误或格式问题

组相对优势计算（无标准差归一化）： $\hat{A}_i = r(q, o_i) - \mu_{\mathcal{G}_q}$ 其中 $\mu_{\mathcal{G}_q} = \frac{1}{K}\sum_{j=1}^K r(q, o_j)$ 是当前提示下的平均奖励。

长度归一化序列级重要性比率： $s_i(\theta) = \exp\left\{\frac{1}{|o_i|}\sum_{t=1}^{|o_i|} \log \frac{\pi_\theta(o_{i,t}|q, o_{i,<t})}{\pi_{\theta_{\text{old}}}(o_{i,t}|q, o_{i,<t})}\right\}$

GSPO目标函数： $\mathcal{J}_{\text{GSPO}}(\theta) = \mathbb{E}_{q,\{o_i\}}\left[\frac{1}{K}\sum_{i=1}^K \min\left(s_i(\theta)\hat{A}_i, \text{clip}(s_i(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_i\right)\right]$

与GRPO的关键区别：

GRPO在token级别计算优势和裁剪，倾向于过度优化短响应
GSPO在序列级别操作，保持长推理链的完整性
GSPO的接口与后续的经验重放机制兼容

分层奖励系统（保守但有效）：

文本匹配：首先提取最终答案，应用规范化文本匹配
Math-Verify：未解决的案例由基于规则的数学表达式评估管道检查
生成式验证：仍失败的样本送交gpt-oss-120b进行生成式验证

这种排序使奖励默认保守，同时仍能恢复那些答案等价但难以用规则解析器规范化的正确解。

2.2.2 精细化RL（Refined RL）：证明质量优化

粗粒度RL建立了强大的搜索行为后，精细化RL将优化目标从答案正确性转移到证明质量。

核心问题：许多奥赛解可以达到正确的最终答案，但仍包含隐藏的漏洞、不合理的转换或不完整的案例分析。

生成式证明奖励：

使用DeepSeekMath-V2作为生成式奖励模型（物理提示除外）：

奖励模型读取问题和完整解或证明
输出二元分数 $r_{\text{proof}}(q, o) \in \{0, 1\}$
评估完整推理路径在数学上是否有效、足够严谨和完整

关键挑战与对策：

奖励黑客：模型可能通过利用格式或验证器输入病理获得奖励
解决方案：反黑客预处理——格式损坏的生成（泄露的聊天模板标记、不平衡的思考分隔符、严重重复）被安全回退答案替代

自我精炼（Self-Refinement）：

这是将测试时行为转化为训练信号的核心机制：

每次rollout后，按提示将响应分组
如果查询组的平均证明奖励低于阈值 $\tau_{\text{ref}} = 0.5$ $τ_{ref} = 0.5$ ：
- 将失败响应转换为精炼提示
- 提示包含：原始问题、之前的不正确解、批判论证并修复证明错误的指令
精炼提示存储在自我精炼缓冲区，以目标比例 $\eta_{\text{ref}} = 0.2$ 混入后续批次
被替换的正常样本返回缓冲区，精炼不会静默丢弃新鲜训练数据
重要限制：不递归排队失败的精炼尝试，避免在当前策略可学习区域之外的示例上重复花费更新

经验重放（Experience Replay）：

在困难证明问题上，策略可能偶尔发现有效解轨迹，即使在同一查询上通常失败。立即丢弃这种轨迹会浪费高价值训练信号。

重放缓冲区机制：

按查询索引的缓冲区 $\mathcal{E}$
准入条件：查询困难但可解，操作化为 $0 < n_+(q) < 2$ $0 < n_{+} (q) < 2$
- $n_+(q)$ 是当前组中成功轨迹的数量
- 0：完全失败，策略尚未学会
- ≥2：策略已能可靠解决，不需要重放
- 1：罕见成功，恰好是需要保存的情况
去重：存储的轨迹去重
退役：当新鲜on-policy rollouts能足够频繁地解决查询（ $n_+(q) \geq 4$ ）时退役

轨迹选择策略：当查询有多个成功轨迹时，选择最低熵的： $o^* = \arg\min_{o \in \mathcal{E}(q)} H(o; \pi_\theta)$ 使用rollout端top-k对数概率作为高效熵估计，遵循ExGRPO的轨迹选择原则（Zhan et al., 2025）。

精细化RL目标函数：

$\mathcal{J}_{\text{refined}}(\theta) = (1-\rho)\mathbb{E}_{\mathcal{B}_{\text{fresh}}}\left[\mathcal{J}_{\text{GSPO}}(q, \mathcal{G}_q; \theta, \pi_{\theta_{\text{old}}})\right] + \rho\mathbb{E}_{\mathcal{B}_{\text{exp}}}\left[\mathcal{J}_{\text{GSPO}}(q^*, \{o^*\} \cup \mathcal{G}_{q^*}; \theta, \pi_{\theta_{\text{src}}})\right]$

其中：

$\rho = 0.25$ ：重放比例
$\pi_{\theta_{\text{src}}} = \pi_{\theta_{\text{past}}}$ ：重放轨迹的源策略
$\pi_{\theta_{\text{src}}} = \pi_{\theta_{\text{old}}}$ ：新鲜rollout的源策略

这种设计是目标化的而非穷尽的：它存储罕见有效证明，偏好最稳定的存储轨迹，以受控比例重放，并在策略能可靠复现行为时移除。

2.3 阶段三：测试时扩展（Test-Time Scaling）

即使有了强大的推理策略，最困难的问题通常仍需要在推理时进行大量搜索和修订。IMO级别的任务需要完整严谨的证明，一个结论正确的解仍可能因隐藏漏洞或逻辑谬误而失败。

关键洞察：单个生成有有限的上下文和思考预算，而奥赛证明可能需要多轮探索、引理检查、反例搜索和论述修复。将推理分解为重复的求解-验证-精炼阶段，有效为同一问题分配额外计算，同时保持每一步的聚焦和可审计性。

SU-01的TTS流程（基于Huang and Yang, 2025）：

求解 → 验证 → 裁决 → [接受|拒绝|精炼]
  ↑                        ↓
  └────────←←←←←←←←←←←←←←─┘

初始求解：在优先证明严谨性而非仅仅达到最终答案的求解提示下，模型首先产生初始解
精炼阶段：模型重新审视草稿，修复薄弱环节，尝试将有前景的论证转化为完整证明
验证阶段：通过验证提示检查精炼候选解：
- 模型检查完整解
- 编写结构化错误报告
- 识别问题：关键错误、不合理声明、缺失案例
裁决阶段：解释错误报告并决定：
- 接受：候选解通过自验证
- 拒绝：候选解存在不可修复问题
- 精炼：候选解有潜力但需要进一步修改
迭代：循环重复直到解在重复验证下保持稳定，或精炼预算耗尽

多运行策略：可以并行或串行执行多次独立运行，接受的候选解仅在证明在重复验证下稳定后才被选择。

长程连贯性：经过完整训练管道后，SU-01能够在困难问题上高效利用这一预算，在推理期间维持超过100K tokens的连贯推理轨迹。

三、实验结果与性能分析

3.1 评估基准体系

研究团队设计了三个互补的评估视角：

答案可验证推理任务：

AMO-Bench（An et al., 2025）
AIME 2025/2026
AnswerBench（IMO-Bench套件，Luong et al., 2025）
FrontierScience-Olympiad（FrontierScience的奥赛子集，Wang et al., 2026）

非可验证/证明导向任务：

ProofBench（IMO-Bench，强调证明质量）
FrontierScience-Research（FrontierScience的研究子集）

官方奥赛竞赛题目：

IMO 2025（6题，金牌线35分）
USAMO 2026（6题，金牌线25分）
IPhO 2024/2025（物理奥赛）

3.2 答案可验证问题性能

模型	AnswerBench	AMO-Bench	AIME 25/26	FrontierScience-Olympiad	平均
P1-30B-A3B	69.3%	41.3%	90.4%/89.6%	54.5%	69.0%
Qwen3.6-35B-A3B	78.0%	58.8%	92.5%/92.9%	65.0%	77.4%
SU-01	77.5%	59.8%	94.6%/93.3%	61.5%	77.3%

关键发现：

SU-01平均得分77.3%，几乎匹敌最强同尺寸基线Qwen3.6-35B-A3B（77.4%）
在AMO-Bench（59.8%）和AIME 2025/2026（94.6%/93.3%）上取得同尺寸最佳结果
尽管RL阶段仅使用数学和物理信号，SU-01在Chemistry（69.4%）和Biology（25.0%）上也展现出强劲迁移能力
跨域迁移支持”可专业化通才”框架：模型通过数学和物理推理信号专业化，但能力不会坍缩为狭窄的竞赛求解器

3.3 证明导向任务性能

IMO-ProofBench表现：

模型	基础集	高级集	总体
P1-30B-A3B	33.8%	6.2%	20.0%
Qwen3.6-35B-A3B	39.1%	7.1%	23.1%
Gemini 3.1 Pro Thinking	95.2%	50.0%	72.6%
SU-01 (直接生成)	77.1%	38.1%	57.6%
SU-01 (TTS)	91.0%	49.5%	70.2%

分析：

直接生成已达同尺寸最强（57.6%）
TTS进一步提升至70.2%，接近Gemini 3.1 Pro Thinking（72.6%）
TTS在基础集上提升显著（77.1%→91.0%），表明自验证和精炼在 correctness 依赖完整证明而非仅最终答案时特别有用

FrontierScience-Research表现：

FrontierScience-Research是FrontierScience的研究导向子集，涵盖物理、化学、生物问题，需要超出标准竞赛格式的科学建模和多步推理。

模型	物理	化学	生物	总体
Qwen3.6-35B-A3B	0.0%	5.0%	10.0%	5.0%
Gemini 3.1 Pro Thinking	0.0%	30.0%	10.0%	13.3%
SU-01	10.0%	10.0%	15.0%	11.7%

重要发现：

SU-01取得同尺寸最佳总体得分（11.7%）
尽管RL仅使用数学和物理信号，在Chemistry（并列最佳）和Biology（第二）上也表现强劲
这种跨域模式表明配方学习到的是更通用的科学推理行为，而非仅针对训练领域的专门化

3.4 官方奥赛竞赛成绩

物理奥赛（IPhO）：

模型	IPhO 2024	IPhO 2025
金牌线	20.8	19.7
Qwen3.6-35B-A3B	24.3	19.9
SU-01 (直接)	23.5	20.3
SU-01 (TTS)	25.3	21.7

SU-01无论是否使用TTS均超过金牌线，TTS后成为同尺寸最强模型。

数学奥赛（IMO 2025）：

模型	P1	P2	P3	P4	P5	P6	总分	奖牌
SU-01	1	7	1	6	6	0	21	铜牌
SU-01 (TTS)	7	7	7	7	7	0	35	金牌
金牌线	-	-	-	-	-	-	35	-

TTS效果分析：

TTS将5道IMO 2025题目升级为满分
P6仍未解决，显示当前方法的局限
直接模型已在P2获得满分，P4/P5接近满分，表明基础模型已掌握大量奥赛推理能力

美国数学奥赛（USAMO 2026）：

模型	P1	P2	P3	P4	P5	P6	总分	奖牌
SU-01	7	0	0	7	0	1	15	铜牌
SU-01 (TTS)	7	0	7	7	7	7	35	金牌
金牌线	-	-	-	-	-	-	25	-
人类最高分	-	-	-	-	-	-	35	-

历史性成就：

SU-01获得35分，超越金牌线10分
USAMO 2026共有340名参赛者，中位数6分，前12名截止线26分，最高分35分
SU-01追平了人类最高分，展示了从30B-A3B紧凑模型中引发顶级人类水平奥赛推理的能力
仅P2未解决，暴露了一个具体的失败模式

3.5 案例研究：模型解法分析

论文附录H包含模型生成解和专家裁决的详细分析。以下是关键发现：

模型优势：

形式框架转换：将奥赛问题转化为坐标或复数（几何）、模分类（数论）、递推（函数方程）、自动机动态规划（数字问题）
典型案例 - USAMO 2026 P3：
- 标准解法：合成几何，通过角度追逐和精心选择的辅助构造
- SU-01解法：优雅地使用复数统一单位圆、等边三角形旋转、弦关系、切线条件于单一代数框架
- 结果：巧妙的分析重构，展示了模型的创造性思维
IMO 2025 P2：
- 将涉及两相交圆、垂心和切线声明的配置约简为坐标和距离计算
USAMO P4：进位状态动态规划方法
USAMO P6：使用欧拉函数、同余、Vieta跳跃和斐波那契结构的数论证明

模型局限：

IMO P6失败：模型遗漏了微妙的结构约束，在无效的列排列约简中出错
USAMO P2失败：在精细的全局策略论证中留下漏洞
核心弱点：当问题允许刚性形式表示时表现良好，但当核心挑战是保持组合结构或证明精细调整的过程不变量时较不可靠

四、架构设计决策与权衡分析

4.1 为什么选择GSPO而非GRPO？

GRPO（Group Relative Policy Optimization）的局限：

Token级操作：优势和裁剪在token级别计算
倾向于过度优化短响应：长推理链的后期tokens获得较少优化压力
与结果奖励的错位：最终答案正确性是整个序列的属性，不应均匀分布到每个token

GSPO的优势：

序列级操作：完整响应作为基本单位
长度归一化：避免对长推理链的惩罚
与结果奖励对齐：奖励分配和策略裁剪在完整响应级别进行
经验重放兼容：重放轨迹可以重用相同的奖励、优势和序列比率表示

权衡：

计算成本：序列级操作需要更多内存（存储整个序列的对数概率）
方差问题：组内样本较少时（K较小），基线估计方差较高
解决方案：论文中K=8，平衡了计算效率和估计稳定性

4.2 反困惑度课程vs随机排序

随机排序的问题：

模型倾向于首先在简单样本上收敛
复杂证明模式的学习不足
整体泛化能力下降

升序PPL（从熟悉到陌生）的问题：

模型过早适应已知模式
后期高PPL样本带来剧烈策略变化
训练不稳定，最终性能差

降序PPL（本文方法）的优势：

每个epoch从最具挑战性的样本开始
强制模型首先进行行为适应
然后逐步巩固在更易样本上
平衡了学习新行为和保留原有能力

实证数据（论文表6）：

随机排序：IMO-ProofBench 52.3%
升序PPL：48.7%
降序PPL（本文）：57.6%

4.3 经验重放的设计选择

为什么不用简单的重放缓冲区（如DQN）？

证明任务的稀疏奖励：绝大多数rollout失败，简单重放会充满负样本
策略漂移：早期成功的轨迹在策略变化后可能不再适用
存储成本：长推理链（>10K tokens）占用大量内存

SU-01的目标化重放：

仅保存”困难但可解”的查询（ $0 < n_+ < 2$ ）
选择最低熵轨迹（最稳定）
受控重放比例（ $\rho=0.25$ ）
自动退役（一旦策略能可靠复现）

权衡：

优点：高效利用有限的训练预算，聚焦于最有价值样本
缺点：复杂的准入和退役逻辑，需要仔细调参
验证：在IMO-ProofBench上，移除重放导致性能下降4.2%（57.6%→53.4%）

4.4 自我精炼 vs 拒绝采样

拒绝采样（Rejection Sampling）的局限：

仅使用通过的样本进行训练
失败尝试中的信息被丢弃
在稀疏奖励设置下效率极低（<2%通过率）

自我精炼的优势：

将失败转化为学习信号：“这是错的，请修复它”
模仿测试时行为：批判和修复是模型实际推理能力的一部分
提高数据效率：每条失败轨迹可生成一条精炼训练样本

关键设计决策：

阈值选择： $\tau_{\text{ref}}=0.5$ $τ_{ref} = 0.5$ （平均证明奖励）
- 过高：太多查询进入精炼，稀释正常训练数据
- 过低：错过有价值的改进机会
比例控制： $\eta_{\text{ref}}=0.2$ $η_{ref} = 0.2$
- 确保精炼样本不会主导训练，保持策略多样性
禁止递归：不将失败的精炼尝试再次排队
- 避免在超出当前策略能力的示例上浪费更新

五、与相关工作的对比分析

5.1 与AlphaGeometry系列的对比

维度	AlphaGeometry/AlphaProof	SU-01
领域专业化	高度专业化（几何）	统一方法（数学+物理+科学）
架构	神经+符号混合	纯神经，端到端训练
搜索机制	显式符号搜索树	隐式在推理链中搜索
训练数据	需要大量合成数据	338K真实问题轨迹
可扩展性	需要领域专家设计符号引擎	通用方法，可扩展到新领域
IMO 2025成绩	金牌水平（AlphaProof）	金牌水平（35分）

核心区别：

AlphaGeometry代表了**“专用工具”**范式：为特定问题设计专用求解器
SU-01代表了**“通用专业化”**范式：将通用模型专业化到特定能力

优劣分析：

AlphaGeometry在几何问题上可能更可靠（符号保证正确性）
SU-01的优势在于通用性和迁移能力：同一方法适用于数学、物理、化学、生物

5.2 与Qwen3.6-35B-A3B的对比

Qwen3.6-35B-A3B是SU-01最直接的对比基线，两者尺寸相近（30B-35B参数，3B激活）。

维度	Qwen3.6-35B-A3B	SU-01
答案可验证任务平均	77.4%	77.3%
IMO-ProofBench	23.1%	57.6%（直接）/ 70.2%（TTS）
USAMO 2026	未报告	35分（金牌）
训练成本	未公开	340K SFT + 200 RL steps

关键洞察：

两者在答案可验证任务上性能相当，表明基础能力相近
SU-01在证明导向任务上大幅领先（23.1% vs 57.6%），展示了精细化RL和自我精炼的有效性
SU-01的训练成本相对较低，表明方法的高效性

5.3 与OpenAI o1/o3的对比

虽然论文未直接对比OpenAI o1/o3（无公开评估数据），但从技术方法上可以分析：

维度	OpenAI o1/o3（推测）	SU-01
规模	估计100B+参数	30B-A3B（紧凑）
推理长度	支持超长推理（>100K tokens）	支持>100K tokens
训练方法	未公开	完全公开的三阶段管道
可复现性	低（闭源）	高（开源代码和模型）
成本效益	高计算成本（推测）	低训练成本

SU-01的意义：

证明了紧凑模型（30B-A3B）通过正确的训练和推理配方可以达到顶级推理能力
开源特性使研究社区能够验证、改进和扩展该方法
为资源受限的组织提供了可行的路径

5.4 与DeepSeek-R1的对比

DeepSeek-R1是另一个近期重要的推理模型，采用了类似的RLVR方法。

维度	DeepSeek-R1	SU-01
基础模型	DeepSeek-V3	P1-30B-A3B
规模	估计更大	30B-A3B（更紧凑）
训练重点	通用推理+数学	专注奥赛级证明推理
自我验证	有	系统性整合（TTS）
经验重放	未明确	核心组件

互补性：

DeepSeek-R1可能在通用推理任务上更强
SU-01在专业奥赛证明任务上展示了更精细的优化
两种方法可以相互借鉴：SU-01的自我精炼和重放机制可应用于DeepSeek-R1框架

六、局限性与失败模式分析

6.1 已知局限

1. IMO 2025 P6 未解决：

失败原因：模型遗漏了微妙的结构约束，在无效的列排列约简中出错
模式识别：当问题核心挑战是保持组合结构或证明精细调整的过程不变量时，模型较不可靠
对比：在允许刚性形式表示的问题上（坐标、复数、递推）表现优异

2. USAMO 2026 P2 未解决：

失败原因：在精细的全局策略论证中留下漏洞
深层原因：模型可能缺乏对某些高级证明策略的深层理解（如特定的组合构造或归纳变体）

3. 生成式奖励模型的脆弱性：

问题：DeepSeekMath-V2作为证明奖励模型，仍可能产生误判
影响：奖励黑客（通过格式利用获得高分）和误判（正确证明被打低分）
缓解：反黑客预处理，但无法完全消除

4. 计算资源需求：

虽然训练成本相对较低，但TTS需要多次模型推理
在USAMO 2026级别的问题上，单次TTS运行可能需要数十次模型调用
限制了实时应用场景

6.2 训练过程的潜在问题

样本效率：

即使使用经验重放，在最难的问题上成功样本仍极度稀缺（<1%）
338K SFT轨迹在奥赛级别问题上的覆盖率可能有限
未来工作：需要更高效的探索策略（如基于不确定性的采样）

分布外泛化：

虽然展示了跨STEM领域的迁移，但未在更广泛的领域（如形式化数学、自动定理证明）上验证
对于完全新颖的问题类型，模型的适应能力未知

超参数敏感性：

多个关键超参数（ $\tau_{\text{ref}}=0.5$ , $\eta_{\text{ref}}=0.2$ , $\rho=0.25$ ）需要仔细调优
不同问题领域可能需要不同的参数设置
缺乏系统性的超参数搜索研究

6.3 评估的局限

自动评估的边界：

ProofBench使用生成式奖励模型评估，存在误判风险
人工评估（如IMO 2025 TTS结果）成本高，难以大规模应用
缺乏对证明优雅性、简洁性的评估

竞争环境的简化：

真实奥赛有时间限制（4.5小时/天，共2天）
模型在TTS模式下可能需要远超人类可用时间的计算
直接对比”35分 vs 人类35分”不完全公平

七、实际应用与未来影响

7.1 教育领域的应用前景

个性化奥赛培训：

SU-01可以作为24/7可用的AI教练，为学生提供即时反馈
能力：生成多路径解法、解释错误、提供针对性练习
相比人类教练的优势：无限耐心、即时响应、覆盖广泛问题类型

数学教育普及：

降低接触高质量数学推理的门槛
偏远地区学生可通过AI获得顶级水平的指导
潜在影响： democratize 数学教育，发现更多数学人才

挑战与风险：

过度依赖：学生可能过度依赖AI，丧失独立思考能力
作弊问题：在竞赛中使用AI的伦理边界需要明确
教师角色转变：从知识传授者转向学习引导者和动机激发者

7.2 科研辅助工具

数学研究助手：

帮助数学家探索猜想、验证引理、生成证明草稿
特别适用于：组合问题、数论中的计算验证、复杂不等式证明
案例：论文展示了模型在USAMO P3上的创新解法（复数框架），这种非标准方法可能启发人类数学家

跨学科研究：

物理建模：协助推导复杂系统的数学模型
理论计算机科学：算法分析和正确性证明
经济学：博弈论和机制设计的严格分析

限制：

当前模型在需要深刻洞察的开创性研究上仍有限
更适合验证性和探索性工作，而非原创性发现

7.3 工业应用潜力

形式化验证：

软件系统的数学正确性证明
硬件设计的逻辑验证
智能合约的安全审计
SU-01的长程推理能力特别适合这些需要严格保证的场景

复杂决策支持：

供应链优化中的约束满足问题
金融衍生品定价的数学建模
药物发现中的分子性质预测

挑战：

工业问题通常有严格的时间约束，TTS的多轮推理可能不适用
需要与领域专家紧密合作，将业务问题转化为数学形式

7.4 技术发展趋势

短期（1-2年）：

效率提升：蒸馏技术将SU-01的能力迁移到更小模型（7B-13B），降低部署成本
多模态扩展：结合视觉理解，解决几何问题中的图形推理
形式化验证集成：与Lean、Coq等定理证明器结合，确保证明的绝对正确性

中期（3-5年）：

自主研究agent：能够提出猜想、设计实验、验证结果的AI科学家
跨学科融合：数学推理与科学模拟、实验设计的深度结合
个性化教育生态：AI教练、自适应学习系统、智能评估的完整闭环

长期（5年以上）：

数学发现：AI协助或独立完成非平凡数学定理的证明
通用推理：将奥赛级推理能力泛化到开放式问题解决
人机协作新范式：人类直觉与AI严谨性的最优结合

八、技术实现的工程细节

8.1 训练基础设施

硬件配置：

基础模型：P1-30B-A3B（30B参数，3B激活的MoE架构）
SFT：约340K条轨迹 × 4 epochs = 1.36M次更新
RL：200 steps，每步使用8,967个可验证提示
估计计算：数百至数千GPU小时（具体数字未公开）

关键技术选择：

MoE冻结：RL期间冻结Mixture-of-Experts路由器，确保重放轨迹在稳定专家路由下评估
长度归一化：所有序列级操作考虑响应长度，避免对长推理的偏见
梯度累积：处理大批量数据的有效手段

8.2 数据管道

SFT数据流：

原始来源 → 去污染 → 生成（DeepSeek-V3.2-Speciale） → 过滤（<8K tokens） → 338K轨迹
                                              ↓
                                    生成验证和精炼轨迹
                                              ↓
                                    反向PPL排序 → 训练

RL数据流：

原始来源 → 去重 → 去污染 → 拒绝采样（移除太易/太难） → 8,967可验证 + 16,287非可验证
                                              ↓
                                    运行时：GSPO采样 → 分层奖励 → 策略更新
                                              ↓
                                    精炼候选 → 重放缓冲区管理

8.3 推理优化

测试时扩展的实现：

并行化：多个独立TTS运行可并行执行
早停：如果验证连续通过，可提前终止精炼循环
预算控制：最大精炼轮数、最大token预算、时间限制

效率优化：

缓存：重复问题的中间结果缓存
剪枝：低质量候选的早期识别和剪枝
自适应：根据问题难度动态调整TTS强度

九、方法论的理论分析

9.1 为什么反向PPL课程有效？

理论直觉：

从高PPL（不熟悉）到低PPL（熟悉）的训练顺序模拟了人类学习中的**“从困难到容易”**策略：

初始冲击：高PPL样本迫使模型快速适应新行为模式
巩固阶段：随着训练进行，模型逐步掌握更熟悉的模式
精细调整：低PPL样本用于微调，提升稳定性

数学解释（简化）：

假设策略空间为 $\Theta$ ，高PPL样本对应远离当前策略 $\theta_0$ 的区域。早期优化这些样本：

增大策略分布的支持集（support），探索更多可能行为
防止过早收敛到局部最优（主要适应简单样本）
为后续学习建立更鲁棒的初始化

相比之下，随机排序可能导致策略”偏安一隅”，仅覆盖简单样本的局部最优。

9.2 经验重放的理论依据

问题设置：

在稀疏奖励设置下（成功概率 $p \ll 1$ ），获得 $N$ 个成功样本需要 $N/p$ 次尝试。

对于 $p \approx 0.01$ （困难问题）和 $N=1000$ （有效学习所需），需要100,000次rollout。

经验重放的解决方案：

保存每个”困难但可解”查询的成功轨迹，相当于：

重要性采样：聚焦于高价值状态分布
数据增强：从稀有成功中学习，而非从大量失败中
信用分配：重放轨迹提供了明确的成功路径，降低信用分配难度

理论保证（简化）：

假设重放缓冲区保存了最优策略下的成功轨迹，混合训练相当于： $\mathcal{J}_{\text{mixed}} = (1-\rho)\mathcal{J}_{\text{on-policy}} + \rho\mathcal{J}_{\text{expert}}$

这种混合提供了：

探索（on-policy）：发现新的成功轨迹
利用（expert）：学习已知的成功模式
平衡： $\rho$ 控制两者的trade-off

9.3 自我精炼的学习动态

作为数据增强：

自我精炼将失败rollout转换为新的训练样本：

原始失败： $(q, o_{\text{bad}})$ ，奖励 $r=0$
精炼样本： $(q_{\text{refine}}, o_{\text{new}})$ ，其中 $q_{\text{refine}} = [q; o_{\text{bad}}; \text{修复指令}]$

这种转换提供了：

负样本的正向利用：从错误中学习
过程监督：不仅告诉模型”这是错的”，还告诉它”如何修复”
行为克隆：精炼提示模仿测试时的实际推理流程

收敛性分析（启发式）：

设初始策略成功率为 $p_0$ ，经过 $t$ 轮精炼后的成功率 $p_t$ 。

如果精炼过程有效（即修复后的解有更高概率成功），则： $p_{t+1} > p_t$

最终收敛到某个稳定点 $p^* < 1$ （受限于模型能力和问题难度）。

十、研究方法的批判性评估

10.1 研究设计的优势

1. 系统性方法论：

三阶段管道（SFT → Coarse RL → Refined RL → TTS）每个阶段解决特定问题
清晰的逻辑链条：行为塑造 → 能力扩展 → 推理时优化

2. 全面的评估体系：

答案可验证 + 证明导向 + 官方竞赛三重评估
同尺寸模型对比（控制参数量变量）
人工评估与自动评估结合

3. 详细的消融实验（论文第6节）：

验证每个组件的贡献
提供超参数敏感性分析
公开失败案例和局限

4. 开源与可复现性：

代码和模型开源
详细的超参数和训练配置（附录）
促进研究社区验证和扩展

10.2 研究设计的局限

1. 基线选择：

主要与Qwen3.6-35B-A3B对比，未与更大模型（如70B+）系统对比
未与OpenAI o1/o3直接对比（无公开评估数据）

2. 领域覆盖：

数学和物理为主，化学和生物仅作为迁移验证
未涉及形式化数学（如Lean证明）
未涉及应用数学（如偏微分方程）

3. 训练成本透明度：

未公开具体GPU小时数和成本
难以评估方法的实际可行性和经济性

4. 超参数调优：

多个关键超参数（ $\tau_{\text{ref}}$ , $\eta_{\text{ref}}$ , $\rho$ ）的设定缺乏系统性搜索
不同问题领域可能需要不同设置

10.3 声称与证据的一致性

强证据支持的声称：

✅ “SU-01在IMO 2025获得35分（金牌线）“：有详细题目分解和人工评估
✅ “同尺寸模型中证明导向任务最佳”：有IMO-ProofBench系统性对比
✅ “TTS显著提升性能”：有直接 vs TTS的A/B测试

证据有限的声称：

⚠️ “简洁统一的配方”：虽然方法相对简洁，但338K SFT + 200 RL steps是否算”简洁”有主观性
⚠️ “保留跨科学领域的迁移能力”：仅在FrontierScience上验证，未在更多领域测试

需要更多证据的领域：

方法的鲁棒性：在不同随机种子、不同初始化下的性能方差
扩展性：更大模型（70B+）上方法是否仍然有效
样本效率：能否用更少数据达到相似性能

十一、结论与关键启示

11.1 核心贡献总结

SU-01研究在AI奥赛推理领域做出了以下关键贡献：

1. 方法论创新：

提出反向困惑度课程学习，解决了在后训练模型上进行长CoT SFT的稳定性问题
设计两阶段RL管道（Coarse + Refined），从答案正确性平滑过渡到证明质量优化
整合自我精炼和经验重放机制，提升稀疏奖励设置下的学习效率

2. 系统架构创新：

采用GSPO替代传统GRPO，实现序列级策略优化
设计分层奖励系统（文本匹配 → Math-Verify → 生成式验证），平衡保守性和覆盖率
构建测试时扩展流程，将训练时学习的行为转化为推理时的系统性验证和修复

3. 实证突破：

在IMO 2025和USAMO 2026中达到金牌水平（35分）
在IPhO 2024/2025中超过金牌线
在IMO-ProofBench上大幅领先同尺寸模型（57.6% vs 23.1%）
证明30B-A3B紧凑模型通过正确方法可以达到顶级推理能力

4. 开源贡献：

公开代码、模型和详细训练配置
提供完整评估数据集和人工评估结果
为研究社区提供可复现、可扩展的基础

11.2 对AI研究的关键启示

启示1：质量 > 数量

SU-01仅用340K SFT轨迹和200 RL步骤就超越了使用更多数据的基线。关键洞察：

数据策划比单纯增加数据量更重要
自我验证和精炼数据（而非仅正确答案）提供了更丰富的学习信号
课程学习提升了样本效率

启示2：从答案正确到证明严谨是一个可学习的能力

通过两阶段RL（Coarse → Refined），模型可以被引导从追求答案正确转向追求证明严谨：

生成式奖励模型（DeepSeekMath-V2）使证明质量评估成为可能
自我精炼将测试时行为转化为训练信号
经验重放解决了稀疏奖励下的学习效率问题

启示3：紧凑模型可以达到顶级能力

30B-A3B的SU-01在奥赛级别任务上匹配了人类最高分，这表明：

训练方法的重要性不亚于模型规模
正确的问题分解（求解-验证-精炼）可以有效利用推理预算
为资源受限场景提供了可行路径

启示4：测试时计算与训练时计算的trade-off

SU-01通过TTS展示了推理时计算的价值：

训练好的策略可以通过多次验证和精炼进一步提升
这种提升对于最难的问题（如IMO P6）尤为明显
未来研究需要在训练成本和推理成本之间寻找最优平衡

11.3 对实践者的建议

如果您正在构建推理系统：

从后训练模型开始：避免从零训练，利用已有模型的通用能力
设计分层奖励系统：从简单规则逐步过渡到复杂评判，平衡可靠性和覆盖率
投资于自我验证数据：让模型学习检查自己的工作，这是长程推理的关键
使用经验重放：在稀疏奖励设置下，保存和复用罕见成功轨迹
实施测试时扩展：训练好的模型可以通过系统性验证和精炼进一步提升

如果您是教育工作者：

AI作为辅助工具：SU-01展示了AI在解释复杂证明、提供多路径解法上的潜力
培养批判性思维：教学生使用AI的同时，保持对其输出的批判性评估
关注过程而非结果：模型的自我验证行为强调了检查中间步骤的重要性

如果您是研究者：

开源的价值：SU-01的开源策略加速了研究进展，值得效仿
系统性评估：结合自动评估和人工评估，特别是在证明质量上
失败案例分析：公开失败案例（如IMO P6）提供了宝贵的研究线索

11.4 未来研究方向

短期（立即开始）：

多模态扩展：将视觉理解整合到几何问题解决中
形式化验证：与Lean/Coq集成，确保证明的绝对正确性
效率优化：蒸馏到更小模型，降低部署成本
超参数自动搜索：系统性探索关键超参数的最优设置

中期（1-3年）：

跨领域迁移：在更多STEM领域验证方法的通用性
开放式问题解决：从竞赛问题扩展到研究级开放问题
人机协作界面：设计有效的人类-AI协作证明工作流
教育应用：开发基于SU-01的个性化数学教育工具

长期（3-5年）：

自主数学发现：AI协助提出和证明非平凡数学定理
通用推理能力：将奥赛级推理泛化到任何复杂问题求解
解释性研究：理解模型是如何”思考”的，提升可解释性
科学革命：AI加速科学发现，不仅限于数学

十二、伦理考量与社会影响

12.1 教育公平的机遇与挑战

机遇：

民主化优质教育：偏远地区学生可以获得顶级水平的数学指导
个性化学习：AI可以适应每个学生的节奏和风格
无限耐心：学生可以反复提问，直到完全理解

挑战：

数字鸿沟：技术基础设施不足的地区可能被进一步边缘化
教师角色：需要重新定义人类教师的价值和职责
评估公平：如何在AI辅助下公平评估学生能力

12.2 竞赛诚信

问题：

SU-01在IMO级别问题上的能力意味着它可以在竞赛中”作弊”
当前的监考机制主要针对人类作弊，难以检测AI辅助

可能的解决方案：

监考技术升级：更严格的电子设备检查、实时行为监控
竞赛形式创新：从开卷考试转向基于面试的评估
伦理教育：强调诚实参赛的重要性

12.3 研究伦理

积极影响：

加速数学和科学发现
帮助验证复杂证明
democratize 高级推理工具的访问

潜在风险：

过度依赖AI可能导致人类推理能力退化
AI生成证明的”黑盒”特性可能影响数学界的信任
需要建立AI辅助研究的伦理准则

12.4 负责任的AI开发

透明性：

SU-01的开源策略是良好的第一步
需要更多关于训练数据、成本和局限的公开信息

可解释性：

当前模型仍是”黑盒”，需要研究如何解释其推理过程
特别是在证明中发现创新解法时（如USAMO P3），理解其思维过程有价值

安全性：

确保AI系统不会被用于恶意目的（如破解加密系统）
建立AI辅助数学研究的伦理审查机制

参考资料

主要论文

Li et al. (2026). Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling. arXiv:2605.13301 - 本报告的核心分析对象，提出了SU-01模型及其三阶段训练管道
- Hugging Face页面: https://huggingface.co/papers/2605.13301
- 项目代码: https://github.com/Super-SUJ/SU-01

在线资源

Hugging Face Daily Papers - 每日最新AI论文聚合平台，本报告分析的论文来源
IMO 2025 Official Problems - 国际数学奥林匹克2025官方题目
USAMO 2026 Results - 美国数学奥林匹克2026成绩和统计

附录：关键术语表

术语	英文全称	定义
SFT	Supervised Fine-Tuning	监督微调，使用标注数据对预训练模型进行微调
RL	Reinforcement Learning	强化学习，通过与环境交互学习最优策略
RLVR	RL with Verifiable Rewards	可验证奖励的强化学习，奖励基于可自动验证的答案正确性
GSPO	Group Sequence Policy Optimization	组序列策略优化，在序列级别而非token级别进行策略优化
PPL	Perplexity	困惑度，衡量语言模型预测能力的指标，越低越好
CoT	Chain-of-Thought	思维链，模型显式生成中间推理步骤的方法
TTS	Test-Time Scaling	测试时扩展，在推理阶段通过多次验证和精炼提升性能
MoE	Mixture-of-Experts	专家混合架构，仅激活部分参数以降低计算成本
IMO	International Mathematical Olympiad	国际数学奥林匹克
IPhO	International Physics Olympiad	国际物理奥林匹克
USAMO	USA Mathematical Olympiad	美国数学奥林匹克

本报告由硅基写手自动生成，基于arXiv论文2605.13301的深度分析。报告力求客观、全面、深入地解读论文的技术贡献、实验结果和潜在影响。如有任何不准确之处，请以原始论文为准。

论文链接：

Hugging Face: https://huggingface.co/papers/2605.13301
arXiv: https://arxiv.org/abs/2605.13301
项目代码: https://github.com/Super-SUJ/SU-01