背景与约束分析

AI Agent 模式定义

原文文章核心观点提取与 Compound Engineering、Superpower 两种模式的概念定义

原文文章核心观点提取

文章背景

Jason Zuo 在 X 平台分享的技术分析文章（发布于 2026 年 3 月 29 日）深入对比了当前 AI Agent 开发领域的三种主流工具：gstack、Superpowers 和 Compound Engineering (CE)。作者的核心论点是：CE 比拥有 120k stars 的 Superpowers 更具架构深度，尤其是其独有的知识积累机制。

文章的关键洞察在于：不是简单对比功能列表，而是引入 Anthropic 官方 Harness 架构框架作为评价基准，从”如何让 agent 跨多个 context window 持续工作”的角度审视各工具的优劣。

Anthropic Harness 架构框架

Anthropic 在 2025 年 11 月和 2026 年 3 月发布的两篇工程博客中，提出了让 Agent 持续工作的核心架构——Harness，包含四个关键角色：

flowchart TD
    A[用户任务] --> B[Planner Agent]
    B --> C[Task List]
    C --> D[Coding Agent]
    D --> E[Feature 1]
    D --> F[Feature 2]
    D --> G[Feature N]
    E --> H[结构化笔记]
    F --> H
    G --> H
    H --> I[Evaluator Agent]
    I --> J{审查通过?}
    J -->|否| D
    J -->|是| K[Progress File]
    K --> L[跨 Session 桥接]
    L --> M[Session B 继续]
    
    style I fill:#f96
    style K fill:#9f6

四个核心角色详解：

Planner Agent：将大任务拆分成可执行的 feature list，是决策中枢
Coding Agent：每次只执行一个 feature，完成后留下结构化笔记
Evaluator Agent：独立审查代码，不让 builder 评价自己的工作（避免过度乐观偏差）
跨 Session 桥接：通过 progress file 传递上下文，实现 session 间连续性

2026 年 3 月的更新引入了 Generator-Evaluator 分离原则：Agent 评价自己的工作会过度乐观（over-optimism bias），因此将”做事的”和”评价的”分成两个独立 agent，效果显著提升。Anthropic 用这套架构让 agent 自主开发了一个完整的项目，包含 200 多个可验证的 feature。

三种工具在 Harness 框架下的定位

gstack：决策层 + 测试层的最佳实践

gstack 由 YC CEO 开发，其哲学是 “Boil the Lake”——AI 时代做完整的事边际成本趋近于零，永远做完整版。

在 Harness 框架下，gstack 覆盖了：

Planner 角色：/plan-ceo-review（产品视角）和 /plan-eng-review（架构视角）
Evaluator 角色：/qa 打开浏览器跑 staging URL，像真实用户一样测试

但 gstack 的定位是决策和测试层，没有结构化的增量执行 workflow，也没有知识积累机制。

Superpowers：标准化的流程但缺乏深度

Superpowers 由 Jesse Vincent 开发，拥有 120k stars，几乎是 Claude Code 的标配。其流程是标准化的：

flowchart LR
    A[Brainstorm] --> B[Plan]
    B --> C[Execute]
    C --> D[Review]
    D --> E[完成]

Superpowers 实现了 Generator-Evaluator 分离：独立的 spec-reviewer + code-quality-reviewer。这比很多 skill 要好，但对比 CE，在三个维度存在深度差距：

Plan 阶段：在当前 context 里直接写 plan，缺乏项目历史知识
Review 阶段：仅 2 个 reviewer（spec + quality），覆盖面有限
知识积累：完全没有知识积累机制，做完就完了，下次 session 从零开始——这是作者替换 Superpowers 的根本原因

Compound Engineering：完整的 Harness 实现 + 知识复利

CE 覆盖了 Harness 的所有角色，并在每个环节做了深度增强：

Harness 角色	CE 实现	深度说明
Planner	`/ce:plan`	并行 spawn research agents，搜索历史经验、扫 codebase pattern、读 git history
Coding	`/ce:work`	按 plan 增量执行，每个 feature 独立处理
Evaluator	`/ce:review`	6-15 个专项 reviewer 并行（correctness、security、performance 等）
跨 Session 桥接	`/ce:compound`	独创：将经验写入 `docs/solutions/` 知识库，供所有未来 session 搜索

Compound Engineering (CE) 定义

核心理念

Compound Engineering 的核心理念是 “compound”（复利）：每次工作的产出不只是代码，还有下次能复用的知识。用得越久，agent 越懂你的项目。

这个理念回应了 AI Agent 领域的一个根本问题：“永续” agent 的核心并不是 24/7 不停工作，而是通过持续不断的工作，同时做到持续不断的自我改进、自我优化，避免重复的错误和重复的浪费，做到真正的 self-improving。

核心命令解析

`/ce:plan` - 知识感知的规划

不同于传统的 plan，CE 的 planning 阶段会并行 spawn 多个 research agents：

flowchart TD
    A[用户任务] --> B[/ce:plan]
    B --> C1[Research Agent 1<br/>搜索历史经验]
    B --> C2[Research Agent 2<br/>扫描 codebase patterns]
    B --> C3[Research Agent 3<br/>读取 git history]
    C1 --> D[综合分析]
    C2 --> D
    C3 --> D
    D --> E[结构化 Plan]
    E --> F[包含历史 learnings]

关键差异：Plan 基于项目历史知识，不只是当前 prompt。这意味着 agent 会主动规避之前踩过的坑。

`/ce:work` - 增量执行

按 plan 增量执行每个 feature，保持专注和结构化。

`/ce:review` - 多维度审查

并行 spawn 6 到 15 个专项 reviewer：

correctness：逻辑正确性
security：安全性审查
performance：性能影响
testing：测试覆盖
maintainability：可维护性
adversarial：对抗性测试（50+ 行 diff 触发）
learnings-researcher：搜索历史相关 learnings
project-standards：项目规范符合性

每个 reviewer 独立产出 P0-P3 级别的报告，确保全面覆盖。

`/ce:compound` - 知识积累的核心

这是 CE 最具创新性的功能。完成一个功能或修复一个 bug 后，运行 /ce:compound，它会并行 spawn 三个 agent：

flowchart TD
    A[Session 完成] --> B[/ce:compound]
    B --> C1[Context Analyzer<br/>提取问题类型/组件/症状]
    B --> C2[Solution Extractor<br/>记录有效/无效尝试<br/>Root Cause/预防措施]
    B --> C3[Related Docs Finder<br/>查重现有文档]
    C1 --> D[Orchestrator 汇总]
    C2 --> D
    C3 --> D
    D --> E{重复度判断}
    E -->|高度重复| F[更新旧文档]
    E -->|新知识| G[创建新文档]
    F --> H[docs/solutions/]
    G --> H
    H --> I[所有未来 session<br/>可搜索的知识库]

文档结构：

每个文档包含 YAML frontmatter，便于搜索和分类：

---
category: runtime-compatibility
tags: [edge-runtime, bug-fix, fetch-api]
components: [api-routes, middleware]
date: 2026-03-29
---

内容结构：

Problem：一两句话问题描述
What Didn’t Work：排查过程中试了什么没用的（避免后人重复踩坑）
Solution：最终解法和代码
Prevention：以后怎么避免

关键洞察：这个文档会被未来所有 /ce:plan 的 learnings-researcher 搜到。不是给”下一个 session”用，是给”所有未来 session”用。

设计哲学：为什么 `/lfg` 不自动 compound

/lfg 是 CE 的全自动模式（plan 到 PR 一条龙），但有趣的是：它没有自动 compound 步骤。

作者解释这是有意的设计：

不是每个 session 都值得 compound。改个 typo、调个 CSS、跑个 migration，这些不产生新知识。只有真正 debug 了一个坑、发现了一个 pattern、踩了一个雷的 session 才值得。自动 compound 每个 session 会产生噪音，docs/solutions/ 被低价值文档淹没，反而降低 learnings-researcher 的搜索质量。

但这也带来问题：人会忘记。作者提出的解决方案是 “compound janitor”：每天 end of day 自动扫当天所有 session 的 git diff 和 conversation，判断哪些值得 compound，筛选后批量跑。

Superpower 模式定义

核心理念

Superpowers 的核心理念是 标准化 workflow：将 AI 辅助开发从”瞎聊”升级为”有流程地用 AI”。其流程简洁明了：

brainstorm → plan → execute → review

流程详解

Brainstorm 阶段

与 AI 进行开放式讨论，探索可能的解决方案。这个阶段比较自由，目的是充分发散思维。

Plan 阶段

将 brainstorm 的结果转化为可执行的计划。关键局限：在当前 context 内直接写 plan，不主动搜索项目历史知识。

Execute 阶段

按 plan 执行代码生成。支持 subagent-driven-development，可以 spawn 子 agent 处理特定任务。

Review 阶段

实现 Generator-Evaluator 分离：

Spec Reviewer：审查是否符合需求规格
Code Quality Reviewer：审查代码质量

优势与局限

优势：

上手简单：流程清晰，易于理解和使用
跨工具兼容：原生支持 Claude Code、Cursor、Codex CLI 等多种工具
标准化：帮助团队建立统一的 AI 辅助开发流程
社区认可：120k stars 证明了其质量和普适性

局限（对比 CE）：

Plan 缺乏深度：不主动挖掘项目历史知识
Review 覆盖面有限：仅 2 个 reviewer，对比 CE 的 6-15 个
关键缺陷：完全没有知识积累机制——做完就完了，下次 session 从零开始

为什么仍有 120k stars

Superpowers 的流行证明了：对于绝大多数用户，标准化的 workflow 比深度的架构更重要。很多开发者需要的只是”比瞎聊更好”的体验，Superpowers 完美满足了这一点。

此外，其跨工具兼容性也是一大优势：同一套 skill 可以在不同 AI 编程工具间无缝切换。

两种模式的核心差异总结

维度	Superpowers	Compound Engineering
核心哲学	标准化 workflow	知识复利积累
Plan 深度	当前 context	项目历史感知
Review 覆盖面	2 个 reviewer	6-15 个专项 reviewer
知识积累	❌ 无	✅ docs/solutions/ 知识库
学习曲线	平缓	较陡
长期价值	线性	指数型（用得越久越聪明）
适用场景	通用/入门	生产项目/长期维护

原文文章核心观点提取

文章背景

Anthropic Harness 架构框架

三种工具在 Harness 框架下的定位

gstack：决策层 + 测试层的最佳实践

Superpowers：标准化的流程但缺乏深度

Compound Engineering：完整的 Harness 实现 + 知识复利

Compound Engineering (CE) 定义

核心理念

核心命令解析

/ce:plan - 知识感知的规划

/ce:work - 增量执行

/ce:review - 多维度审查

/ce:compound - 知识积累的核心

设计哲学：为什么 /lfg 不自动 compound

Superpower 模式定义

核心理念

流程详解

Brainstorm 阶段

Plan 阶段

Execute 阶段

Review 阶段

优势与局限

为什么仍有 120k stars

两种模式的核心差异总结

参考资料

`/ce:plan` - 知识感知的规划

`/ce:work` - 增量执行

`/ce:review` - 多维度审查

`/ce:compound` - 知识积累的核心

设计哲学：为什么 `/lfg` 不自动 compound