核心发现
总结 SkillOpt 的主实验、消融、迁移、成本和技能样例,解释为什么它比手写技能和 prompt optimization 更稳定
发现一:52/52 单元格最好或并列最好
论文最醒目的结果是:SkillOpt 在全部 52 个评估单元格里都是 best 或 tied-best。这里的单元格指 (target model, benchmark, harness) 组合,覆盖 direct chat、Codex harness、Claude Code harness,多种 GPT 和 Qwen 目标模型,以及 6 个任务类型。
以 GPT-5.5 direct chat 为例:
| Benchmark | No skill | SkillOpt | 绝对提升 |
|---|---|---|---|
| SearchQA | 77.7 | 87.3 | +9.6 |
| SpreadsheetBench | 41.8 | 80.7 | +38.9 |
| OfficeQA | 33.1 | 72.1 | +39.0 |
| DocVQA | 78.8 | 91.2 | +12.4 |
| LiveMathematicianBench | 37.6 | 66.9 | +29.3 |
| ALFWorld | 83.6 | 95.5 | +11.9 |
六项平均从 58.8 提升到 82.3,绝对提升 +23.5 分。论文还计算了一个更强的 oracle baseline:每个 cell 都从 human skill、LLM skill、Trace2Skill、TextGrad、GEPA 等方法中选择最强者。即便如此,SkillOpt 仍平均高出 +5.4 分。
发现二:收益最大的是程序性任务
SkillOpt 对所有任务都有提升,但最大增益集中在 procedural benchmarks:
- SpreadsheetBench:41.8 到 80.7,+38.9;
- OfficeQA:33.1 到 72.1,+39.0;
- LiveMathematicianBench:37.6 到 66.9,+29.3;
- Codex harness 下 SpreadsheetBench:27.5 到 85.0,+57.5;
- Claude Code harness 下 SpreadsheetBench:22.1 到 80.4,+58.3。
这说明 SkillOpt 学到的不是简单知识补丁,而是任务执行流程。例如 spreadsheet 任务中的关键规则不是“记住某个答案”,而是:
- 先检查 workbook 结构和公式;
- 识别 target range;
- 用 Python 计算结果;
- 写入 evaluated static values;
- 保存后重新打开验证边界行和空白单元格。
这些都是程序性纪律,正适合放入技能文档。
发现三:小模型也明显受益
论文报告 direct chat 下各模型平均提升:
| 目标模型 | 平均提升 |
|---|---|
| GPT-5.5 | +23.5 |
| GPT-5.4 | +12.7 |
| GPT-5.4-mini | +15.4 |
| GPT-5.4-nano | +26.7 |
| GPT-5.2 | +16.6 |
| Qwen3.5-4B | +19.2 |
| Qwen3.6-35B-A3B | +9.1 |
小模型的相对收益尤其高。GPT-5.4-nano 在 DocVQA 上接近翻倍,在 ALFWorld 上接近三倍。这个结果支持论文的解释:compact skill artifact 可以把目标模型缺失的执行程序显式化,尤其能帮助参数较小、内生策略较弱的模型。
不过这也带来一个实践判断:SkillOpt 并不是只适合最强模型。对于本地小模型、企业自部署模型或低成本推理模型,离线训练技能可能是一种性价比较高的适配方式。
发现四:同一技能格式能进入不同 harness
SkillOpt 在 direct chat、Codex harness、Claude Code harness 都有效。GPT-5.5 的平均提升:
| 执行模式 | 平均提升 |
|---|---|
| Direct chat | +23.5 |
| Codex harness | +24.8 |
| Claude Code harness | +19.1 |
这点很关键。很多 prompt 技巧只在单一聊天接口有效,但 Agent 工程往往发生在工具环境中:文件、shell、代码执行、trace summary、verifier 都会改变模型行为。SkillOpt 通过 adapter 将当前 skill 注入不同 harness,并从真实执行 trace 中学习。
跨 harness transfer 更能说明问题:
| Source harness | Target harness | Benchmark | 目标 baseline | 转移后 | 提升 |
|---|---|---|---|---|---|
| Codex | Claude Code | SpreadsheetBench | 22.1 | 81.8 | +59.7 |
| Claude Code | Codex | SpreadsheetBench | 27.5 | 71.1 | +43.6 |
| Codex | Claude Code | LiveMath | 40.8 | 42.4 | +1.6 |
| Claude Code | Codex | LiveMath | 35.2 | 48.0 | +12.8 |
SpreadsheetBench 的迁移尤其强,说明学到的是 workbook-level procedure,而不是某个 harness 的命令细节。
发现五:核心机制经消融验证
论文的消融实验说明,SkillOpt 的收益并非来自随意堆 prompt,而是来自几个控制机制。
文本学习率有意义
不同 learning rate 和 schedule 下结果总体稳定,但“without lr”的表现更弱。这说明限制每步编辑数量确实能减少 destructive rewrite。
Rejected buffer 是稳定器
移除 rejected-edit buffer 会降低 SearchQA、SpreadsheetBench、LiveMath 分数,幅度分别约为 1.6、4.6、2.4 分。它的作用不是部署时增强 Agent,而是训练时避免优化器重复尝试坏编辑。
Slow/meta update 对程序性任务很重要
最明显的消融来自 slow/meta update。移除 meta skill 和 slow update 后,SpreadsheetBench 从 77.5 掉到 55.0,下降 22.5 分。这说明复杂工具任务需要跨 batch、跨 epoch 的长期规律,而不是只看当前 rollout。
发现六:最终技能小而可读
SkillOpt 没有通过无限扩大提示长度取胜。论文报告 GPT-5.5 case study 的最终技能文档大小:
| Benchmark | 初始 tokens | 最终 tokens | 接受编辑数 | 训练 tokens | 每点提升成本 |
|---|---|---|---|---|---|
| SearchQA | 16 | 857 | 4 | 213.8M | 37.9M |
| SpreadsheetBench | 224 | 1,995 | 4 | 21.4M | 0.6M |
| OfficeQA | 145 | 883 | 1 | 20.8M | 1.1M |
| DocVQA | 81 | 959 | 3 | 188.2M | 46.4M |
| LiveMath | 154 | 379 | 1 | 23.2M | 3.6M |
| ALFWorld | 516 | 1,321 | 2 | 59.3M | 15.9M |
两个事实很重要。
第一,最终技能都低于 2,000 tokens,大多数人可以直接审读。第二,真正接受进入 best_skill.md 的编辑只有 1-4 个,说明 validation gate 筛掉了大量听起来合理但无效的改动。
发现七:学到的规则是程序性而非实例性
论文给出每个 benchmark 的代表性 learned rule。它们的共同点是:不引用具体样本,不记忆答案,而是描述可复用操作。
| Benchmark | 学到的程序性规则类型 |
|---|---|
| SearchQA | 从问题措辞推断答案类型,选择最短 canonical entity |
| SpreadsheetBench | 先检查 workbook 结构和公式,再写 evaluated static values |
| OfficeQA | 以 parsed pages 为主证据,锁定表格/日期/单位上下文 |
| DocVQA | 先绑定视觉 row/header/field,再复制对齐答案 |
| LiveMath | strongest-statement MCQ 中按 theorem strength 排序 |
| ALFWorld | 维护 horizon-aware visited/frontier ledger,避免无效回访 |
这也是为什么技能可以迁移:它们更像“专家操作规程”,而不是“训练集笔记”。
发现八:训练成本集中在离线阶段
SkillOpt 的部署成本很低:只多塞一个技能文档,不调用 optimizer,不微调权重。但训练成本并非免费。
从成本表看,短轨迹程序性任务的 cost per point 较低,例如 SpreadsheetBench 约 0.6M training tokens per point,OfficeQA 约 1.1M。长上下文或 multimodal 任务成本高很多,例如 SearchQA 约 37.9M,DocVQA 约 46.4M。
这给出一个清晰的适用边界:如果同一技能会被大量复用,离线训练成本可以摊销;如果只是一次性任务,手写或一次性生成技能可能更划算。
综合结论
SkillOpt 的实证结果支持一个强判断:在有可靠评分器和可复用任务分布的 Agent 场景中,训练一个 compact skill document 可以成为比手写提示、一次性 LLM 技能和若干 prompt optimization 方法更强的无权重更新适配方式。
它的优势主要来自三点:
- 训练信号来自目标模型在真实 harness 下的轨迹,而不是抽象任务描述;
- 文本更新受 learning rate、validation gate 和 rejected buffer 控制;
- 最终输出是小型、可审计、可迁移的技能文档。
这使 SkillOpt 更像“Agent 程序性知识的优化器”,而不是普通 prompt enhancer。