Logo
热心市民王先生

核心发现

学术论文 实验分析 AI Agent

总结 SkillOpt 的主实验、消融、迁移、成本和技能样例,解释为什么它比手写技能和 prompt optimization 更稳定

发现一:52/52 单元格最好或并列最好

论文最醒目的结果是:SkillOpt 在全部 52 个评估单元格里都是 best 或 tied-best。这里的单元格指 (target model, benchmark, harness) 组合,覆盖 direct chat、Codex harness、Claude Code harness,多种 GPT 和 Qwen 目标模型,以及 6 个任务类型。

以 GPT-5.5 direct chat 为例:

BenchmarkNo skillSkillOpt绝对提升
SearchQA77.787.3+9.6
SpreadsheetBench41.880.7+38.9
OfficeQA33.172.1+39.0
DocVQA78.891.2+12.4
LiveMathematicianBench37.666.9+29.3
ALFWorld83.695.5+11.9

六项平均从 58.8 提升到 82.3,绝对提升 +23.5 分。论文还计算了一个更强的 oracle baseline:每个 cell 都从 human skill、LLM skill、Trace2Skill、TextGrad、GEPA 等方法中选择最强者。即便如此,SkillOpt 仍平均高出 +5.4 分。

发现二:收益最大的是程序性任务

SkillOpt 对所有任务都有提升,但最大增益集中在 procedural benchmarks:

  • SpreadsheetBench:41.8 到 80.7,+38.9;
  • OfficeQA:33.1 到 72.1,+39.0;
  • LiveMathematicianBench:37.6 到 66.9,+29.3;
  • Codex harness 下 SpreadsheetBench:27.5 到 85.0,+57.5;
  • Claude Code harness 下 SpreadsheetBench:22.1 到 80.4,+58.3。

这说明 SkillOpt 学到的不是简单知识补丁,而是任务执行流程。例如 spreadsheet 任务中的关键规则不是“记住某个答案”,而是:

  • 先检查 workbook 结构和公式;
  • 识别 target range;
  • 用 Python 计算结果;
  • 写入 evaluated static values;
  • 保存后重新打开验证边界行和空白单元格。

这些都是程序性纪律,正适合放入技能文档。

发现三:小模型也明显受益

论文报告 direct chat 下各模型平均提升:

目标模型平均提升
GPT-5.5+23.5
GPT-5.4+12.7
GPT-5.4-mini+15.4
GPT-5.4-nano+26.7
GPT-5.2+16.6
Qwen3.5-4B+19.2
Qwen3.6-35B-A3B+9.1

小模型的相对收益尤其高。GPT-5.4-nano 在 DocVQA 上接近翻倍,在 ALFWorld 上接近三倍。这个结果支持论文的解释:compact skill artifact 可以把目标模型缺失的执行程序显式化,尤其能帮助参数较小、内生策略较弱的模型。

不过这也带来一个实践判断:SkillOpt 并不是只适合最强模型。对于本地小模型、企业自部署模型或低成本推理模型,离线训练技能可能是一种性价比较高的适配方式。

发现四:同一技能格式能进入不同 harness

SkillOpt 在 direct chat、Codex harness、Claude Code harness 都有效。GPT-5.5 的平均提升:

执行模式平均提升
Direct chat+23.5
Codex harness+24.8
Claude Code harness+19.1

这点很关键。很多 prompt 技巧只在单一聊天接口有效,但 Agent 工程往往发生在工具环境中:文件、shell、代码执行、trace summary、verifier 都会改变模型行为。SkillOpt 通过 adapter 将当前 skill 注入不同 harness,并从真实执行 trace 中学习。

跨 harness transfer 更能说明问题:

Source harnessTarget harnessBenchmark目标 baseline转移后提升
CodexClaude CodeSpreadsheetBench22.181.8+59.7
Claude CodeCodexSpreadsheetBench27.571.1+43.6
CodexClaude CodeLiveMath40.842.4+1.6
Claude CodeCodexLiveMath35.248.0+12.8

SpreadsheetBench 的迁移尤其强,说明学到的是 workbook-level procedure,而不是某个 harness 的命令细节。

发现五:核心机制经消融验证

论文的消融实验说明,SkillOpt 的收益并非来自随意堆 prompt,而是来自几个控制机制。

文本学习率有意义

不同 learning rate 和 schedule 下结果总体稳定,但“without lr”的表现更弱。这说明限制每步编辑数量确实能减少 destructive rewrite。

Rejected buffer 是稳定器

移除 rejected-edit buffer 会降低 SearchQA、SpreadsheetBench、LiveMath 分数,幅度分别约为 1.6、4.6、2.4 分。它的作用不是部署时增强 Agent,而是训练时避免优化器重复尝试坏编辑。

Slow/meta update 对程序性任务很重要

最明显的消融来自 slow/meta update。移除 meta skill 和 slow update 后,SpreadsheetBench 从 77.5 掉到 55.0,下降 22.5 分。这说明复杂工具任务需要跨 batch、跨 epoch 的长期规律,而不是只看当前 rollout。

发现六:最终技能小而可读

SkillOpt 没有通过无限扩大提示长度取胜。论文报告 GPT-5.5 case study 的最终技能文档大小:

Benchmark初始 tokens最终 tokens接受编辑数训练 tokens每点提升成本
SearchQA168574213.8M37.9M
SpreadsheetBench2241,995421.4M0.6M
OfficeQA145883120.8M1.1M
DocVQA819593188.2M46.4M
LiveMath154379123.2M3.6M
ALFWorld5161,321259.3M15.9M

两个事实很重要。

第一,最终技能都低于 2,000 tokens,大多数人可以直接审读。第二,真正接受进入 best_skill.md 的编辑只有 1-4 个,说明 validation gate 筛掉了大量听起来合理但无效的改动。

发现七:学到的规则是程序性而非实例性

论文给出每个 benchmark 的代表性 learned rule。它们的共同点是:不引用具体样本,不记忆答案,而是描述可复用操作。

Benchmark学到的程序性规则类型
SearchQA从问题措辞推断答案类型,选择最短 canonical entity
SpreadsheetBench先检查 workbook 结构和公式,再写 evaluated static values
OfficeQA以 parsed pages 为主证据,锁定表格/日期/单位上下文
DocVQA先绑定视觉 row/header/field,再复制对齐答案
LiveMathstrongest-statement MCQ 中按 theorem strength 排序
ALFWorld维护 horizon-aware visited/frontier ledger,避免无效回访

这也是为什么技能可以迁移:它们更像“专家操作规程”,而不是“训练集笔记”。

发现八:训练成本集中在离线阶段

SkillOpt 的部署成本很低:只多塞一个技能文档,不调用 optimizer,不微调权重。但训练成本并非免费。

从成本表看,短轨迹程序性任务的 cost per point 较低,例如 SpreadsheetBench 约 0.6M training tokens per point,OfficeQA 约 1.1M。长上下文或 multimodal 任务成本高很多,例如 SearchQA 约 37.9M,DocVQA 约 46.4M。

这给出一个清晰的适用边界:如果同一技能会被大量复用,离线训练成本可以摊销;如果只是一次性任务,手写或一次性生成技能可能更划算。

综合结论

SkillOpt 的实证结果支持一个强判断:在有可靠评分器和可复用任务分布的 Agent 场景中,训练一个 compact skill document 可以成为比手写提示、一次性 LLM 技能和若干 prompt optimization 方法更强的无权重更新适配方式。

它的优势主要来自三点:

  1. 训练信号来自目标模型在真实 harness 下的轨迹,而不是抽象任务描述;
  2. 文本更新受 learning rate、validation gate 和 rejected buffer 控制;
  3. 最终输出是小型、可审计、可迁移的技能文档。

这使 SkillOpt 更像“Agent 程序性知识的优化器”,而不是普通 prompt enhancer。