核心发现

学术论文实验分析 AI Agent

总结 SkillOpt 的主实验、消融、迁移、成本和技能样例，解释为什么它比手写技能和 prompt optimization 更稳定

发现一：52/52 单元格最好或并列最好

论文最醒目的结果是：SkillOpt 在全部 52 个评估单元格里都是 best 或 tied-best。这里的单元格指 (target model, benchmark, harness) 组合，覆盖 direct chat、Codex harness、Claude Code harness，多种 GPT 和 Qwen 目标模型，以及 6 个任务类型。

以 GPT-5.5 direct chat 为例：

Benchmark	No skill	SkillOpt	绝对提升
SearchQA	77.7	87.3	+9.6
SpreadsheetBench	41.8	80.7	+38.9
OfficeQA	33.1	72.1	+39.0
DocVQA	78.8	91.2	+12.4
LiveMathematicianBench	37.6	66.9	+29.3
ALFWorld	83.6	95.5	+11.9

六项平均从 58.8 提升到 82.3，绝对提升 +23.5 分。论文还计算了一个更强的 oracle baseline：每个 cell 都从 human skill、LLM skill、Trace2Skill、TextGrad、GEPA 等方法中选择最强者。即便如此，SkillOpt 仍平均高出 +5.4 分。

发现二：收益最大的是程序性任务

SkillOpt 对所有任务都有提升，但最大增益集中在 procedural benchmarks：

SpreadsheetBench：41.8 到 80.7，+38.9；
OfficeQA：33.1 到 72.1，+39.0；
LiveMathematicianBench：37.6 到 66.9，+29.3；
Codex harness 下 SpreadsheetBench：27.5 到 85.0，+57.5；
Claude Code harness 下 SpreadsheetBench：22.1 到 80.4，+58.3。

这说明 SkillOpt 学到的不是简单知识补丁，而是任务执行流程。例如 spreadsheet 任务中的关键规则不是“记住某个答案”，而是：

先检查 workbook 结构和公式；
识别 target range；
用 Python 计算结果；
写入 evaluated static values；
保存后重新打开验证边界行和空白单元格。

这些都是程序性纪律，正适合放入技能文档。

发现三：小模型也明显受益

论文报告 direct chat 下各模型平均提升：

目标模型	平均提升
GPT-5.5	+23.5
GPT-5.4	+12.7
GPT-5.4-mini	+15.4
GPT-5.4-nano	+26.7
GPT-5.2	+16.6
Qwen3.5-4B	+19.2
Qwen3.6-35B-A3B	+9.1

小模型的相对收益尤其高。GPT-5.4-nano 在 DocVQA 上接近翻倍，在 ALFWorld 上接近三倍。这个结果支持论文的解释：compact skill artifact 可以把目标模型缺失的执行程序显式化，尤其能帮助参数较小、内生策略较弱的模型。

不过这也带来一个实践判断：SkillOpt 并不是只适合最强模型。对于本地小模型、企业自部署模型或低成本推理模型，离线训练技能可能是一种性价比较高的适配方式。

发现四：同一技能格式能进入不同 harness

SkillOpt 在 direct chat、Codex harness、Claude Code harness 都有效。GPT-5.5 的平均提升：

执行模式	平均提升
Direct chat	+23.5
Codex harness	+24.8
Claude Code harness	+19.1

这点很关键。很多 prompt 技巧只在单一聊天接口有效，但 Agent 工程往往发生在工具环境中：文件、shell、代码执行、trace summary、verifier 都会改变模型行为。SkillOpt 通过 adapter 将当前 skill 注入不同 harness，并从真实执行 trace 中学习。

跨 harness transfer 更能说明问题：

Source harness	Target harness	Benchmark	目标 baseline	转移后	提升
Codex	Claude Code	SpreadsheetBench	22.1	81.8	+59.7
Claude Code	Codex	SpreadsheetBench	27.5	71.1	+43.6
Codex	Claude Code	LiveMath	40.8	42.4	+1.6
Claude Code	Codex	LiveMath	35.2	48.0	+12.8

SpreadsheetBench 的迁移尤其强，说明学到的是 workbook-level procedure，而不是某个 harness 的命令细节。

发现五：核心机制经消融验证

论文的消融实验说明，SkillOpt 的收益并非来自随意堆 prompt，而是来自几个控制机制。

文本学习率有意义

不同 learning rate 和 schedule 下结果总体稳定，但“without lr”的表现更弱。这说明限制每步编辑数量确实能减少 destructive rewrite。

Rejected buffer 是稳定器

移除 rejected-edit buffer 会降低 SearchQA、SpreadsheetBench、LiveMath 分数，幅度分别约为 1.6、4.6、2.4 分。它的作用不是部署时增强 Agent，而是训练时避免优化器重复尝试坏编辑。

Slow/meta update 对程序性任务很重要

最明显的消融来自 slow/meta update。移除 meta skill 和 slow update 后，SpreadsheetBench 从 77.5 掉到 55.0，下降 22.5 分。这说明复杂工具任务需要跨 batch、跨 epoch 的长期规律，而不是只看当前 rollout。

发现六：最终技能小而可读

SkillOpt 没有通过无限扩大提示长度取胜。论文报告 GPT-5.5 case study 的最终技能文档大小：

Benchmark	初始 tokens	最终 tokens	接受编辑数	训练 tokens	每点提升成本
SearchQA	16	857	4	213.8M	37.9M
SpreadsheetBench	224	1,995	4	21.4M	0.6M
OfficeQA	145	883	1	20.8M	1.1M
DocVQA	81	959	3	188.2M	46.4M
LiveMath	154	379	1	23.2M	3.6M
ALFWorld	516	1,321	2	59.3M	15.9M

两个事实很重要。

第一，最终技能都低于 2,000 tokens，大多数人可以直接审读。第二，真正接受进入 best_skill.md 的编辑只有 1-4 个，说明 validation gate 筛掉了大量听起来合理但无效的改动。

发现七：学到的规则是程序性而非实例性

论文给出每个 benchmark 的代表性 learned rule。它们的共同点是：不引用具体样本，不记忆答案，而是描述可复用操作。

Benchmark	学到的程序性规则类型
SearchQA	从问题措辞推断答案类型，选择最短 canonical entity
SpreadsheetBench	先检查 workbook 结构和公式，再写 evaluated static values
OfficeQA	以 parsed pages 为主证据，锁定表格/日期/单位上下文
DocVQA	先绑定视觉 row/header/field，再复制对齐答案
LiveMath	strongest-statement MCQ 中按 theorem strength 排序
ALFWorld	维护 horizon-aware visited/frontier ledger，避免无效回访

这也是为什么技能可以迁移：它们更像“专家操作规程”，而不是“训练集笔记”。

发现八：训练成本集中在离线阶段

SkillOpt 的部署成本很低：只多塞一个技能文档，不调用 optimizer，不微调权重。但训练成本并非免费。

从成本表看，短轨迹程序性任务的 cost per point 较低，例如 SpreadsheetBench 约 0.6M training tokens per point，OfficeQA 约 1.1M。长上下文或 multimodal 任务成本高很多，例如 SearchQA 约 37.9M，DocVQA 约 46.4M。

这给出一个清晰的适用边界：如果同一技能会被大量复用，离线训练成本可以摊销；如果只是一次性任务，手写或一次性生成技能可能更划算。

综合结论

SkillOpt 的实证结果支持一个强判断：在有可靠评分器和可复用任务分布的 Agent 场景中，训练一个 compact skill document 可以成为比手写提示、一次性 LLM 技能和若干 prompt optimization 方法更强的无权重更新适配方式。

它的优势主要来自三点：

训练信号来自目标模型在真实 harness 下的轨迹，而不是抽象任务描述；
文本更新受 learning rate、validation gate 和 rejected buffer 控制；
最终输出是小型、可审计、可迁移的技能文档。

这使 SkillOpt 更像“Agent 程序性知识的优化器”，而不是普通 prompt enhancer。