Logo
热心市民王先生

技术原理核心

技术研究 人工智能 AI Agent

oh-my-opencode 采用分层协作架构,通过 Sisyphus 协调器统一管理多个专业 Agent,形成类似人类开发团队的协作模式。理解这一架构是进行模型合理分配的前提。

oh-my-opencode 多 Agent 架构解析

oh-my-opencode 采用分层协作架构,通过 Sisyphus 协调器统一管理多个专业 Agent,形成类似人类开发团队的协作模式。理解这一架构是进行模型合理分配的前提。

核心组件架构

graph TD
    A[用户输入] --> B[Sisyphus<br/>协调器]
    B --> C{任务分类}
    
    C -->|探索/研究| D[Explore Agent]
    C -->|资料检索| E[Librarian Agent]
    C -->|架构咨询| F[Oracle Agent]
    C -->|代码实现| G[Developer Agent]
    C -->|UI/UX设计| H[Designer Agent]
    
    D --> I[结果聚合]
    E --> I
    F --> I
    G --> I
    H --> I
    
    I --> B
    B --> J[最终输出]

各 Agent 能力特征

Sisyphus(协调器)

作为中央调度中心,Sisyphus 负责:

  • 意图识别:解析用户需求,判断任务类型和复杂度
  • 任务分解:将复杂任务拆分为可并行执行的子任务
  • 资源调度:根据任务特征分发给合适的 Agent
  • 结果整合:汇总各 Agent 输出,形成最终响应

对模型的要求:需要强推理能力来理解复杂需求,同时要有较好的指令遵循能力。

Oracle(架构顾问)

Oracle 是只读的高 IQ 咨询 Agent,专用于:

  • 复杂架构设计:多系统权衡、不熟悉模式咨询
  • 深度调试:2+ 次失败修复尝试后的咨询
  • 安全/性能决策:涉及安全和性能的重要决策

对模型的要求:最强的推理能力和领域知识,通常需要分配给能力最强的模型。

Librarian(资料检索)

Librarian 专注于外部资源搜索:

  • 文档查询:官方 API 文档检索
  • 最佳实践:社区最佳实践和模式搜索
  • 开源参考:GitHub 等平台的代码示例搜索

对模型的要求:需要良好的信息整合能力,但对推理深度要求相对较低,可分配给成本较低的模型。

Developer(开发者)

Developer 负责代码实现:

  • 代码生成:根据需求生成可运行的代码
  • 代码重构:优化现有代码结构
  • Bug 修复:诊断并修复代码问题

对模型的要求:强编码能力、多语言支持、良好的上下文理解。

Designer(UI/UX 设计)

Designer 专注于界面和体验设计:

  • UI 实现:将设计稿转化为代码
  • 交互设计:设计用户交互流程
  • 视觉优化:美学调整和样式优化

对模型的要求:审美能力、前端技术栈熟练度、对设计规范的理解。

三款模型技术架构对比

GLM4.7(智谱 AI)

模型规格

参数项规格
总参数量358B(3580 亿)
激活参数32B(320 亿)
架构类型MoE(混合专家)
上下文长度202K tokens
开源协议MIT(可商用)

核心技术特点

MoE 架构优化:GLM4.7 采用稀疏激活的混合专家架构,每次推理仅激活约 9% 的参数。这种设计在保证模型容量的同时显著降低了推理成本,使得大规模参数模型也能在相对有限的硬件资源上运行。

编码能力突出:在 SWE-bench Verified 基准测试中,GLM4.7 获得 73.8% 的分数,处于开源模型第一梯队。其优势体现在:

  • 多语言代码生成(支持 Python、Java、C++、JavaScript、Rust、Go 等)
  • 前后端全栈开发能力
  • UI 设计美学提升,能生成符合现代设计规范的界面代码

上下文处理:202K 的上下文窗口使其能够处理大型代码库和复杂文档,适合长文档分析和多文件项目理解。

Kimi 2.5(月之暗面)

模型规格

参数项规格
总参数量1T(1 万亿)
激活参数32B(320 亿)
专家数量384 个
每层选择专家8 个
上下文长度256K-512K tokens
词表大小160K

核心技术特点

超大规模 MoE 架构:Kimi 2.5 采用 1 万亿参数规模的 MoE 架构,但仅激活 32 亿参数(3.2%),实现了效率与能力的平衡。384 个专家的设计比 DeepSeek-V3 多出 50%,提供了更细粒度的专业知识分布。

原生多模态能力

  • 集成 MoonViT 视觉编码器(400M 参数)
  • 支持文本、图像、视频理解
  • 15 万亿混合视觉和文本 tokens 预训练

超长上下文处理:支持 256K 标准上下文,扩展模式可达 512K,是处理超长文档、大规模代码库分析的理想选择。

Agent 能力强化

  • 支持智能体群模式
  • 可并行执行 1500 个工具调用
  • 优秀的任务拆解和多步骤规划能力

MiniMax 2.5

模型规格

参数项规格
总参数量230B(2290 亿)
上下文长度128K tokens
推理模式常规模式 + 思考模式
开源协议Modified MIT License

核心技术特点

编程能力 SOTA:MiniMax 2.5 在多个编程基准测试中达到业界领先水平:

  • SWE-Bench Verified:80.2%(刷新记录)
  • Multi-SWE-Bench:51.3%(业界第一)
  • BrowseComp(搜索):76.3%

Agent 专用优化

  • 经过数十万个真实复杂环境的大规模强化学习训练
  • 优化的任务拆解能力和 thinking token 效率
  • BFCL 工具调用评分:76.8%
  • 相比 M2.1 版本,Agent 能力提升 10.6%

成本与速度优势

  • 输出价格:$1.20/百万 token(比 GLM-5 便宜 2.7 倍)
  • 推理速度:50-100 TPS
  • 连续工作 1 小时仅需 0.30.3-1.0

架构师思维模式:模型演化出了原生 Spec 行为,能够在写代码前主动拆解功能、结构和 UI 设计,实现完整的前期规划。

模型-任务匹配理论框架

匹配维度

基于以上技术特点,我们从以下维度评估模型与任务的匹配度:

维度说明评估指标
推理深度复杂逻辑推理能力数学/逻辑基准得分
编码能力代码生成质量SWE-bench 得分
上下文长度长文档处理能力支持的最大 token 数
多模态图像/视频理解是否支持及支持程度
成本效率性价比每百万 token 价格
响应速度推理延迟TPS(每秒 token 数)
Agent 能力工具调用和任务规划BFCL、任务完成率

匹配原则

  1. 能力适配原则:将任务分配给在该领域能力最强的模型
  2. 成本效益原则:在保证质量的前提下,优先使用低成本模型
  3. 上下文匹配原则:确保模型上下文长度能够覆盖任务需求
  4. 速度敏感原则:对响应速度敏感的任务选择推理更快的模型

参考资料