技术原理核心

技术研究人工智能 AI Agent

oh-my-opencode 采用分层协作架构，通过 Sisyphus 协调器统一管理多个专业 Agent，形成类似人类开发团队的协作模式。理解这一架构是进行模型合理分配的前提。

oh-my-opencode 多 Agent 架构解析

核心组件架构

graph TD
    A[用户输入] --> B[Sisyphus<br/>协调器]
    B --> C{任务分类}
    
    C -->|探索/研究| D[Explore Agent]
    C -->|资料检索| E[Librarian Agent]
    C -->|架构咨询| F[Oracle Agent]
    C -->|代码实现| G[Developer Agent]
    C -->|UI/UX设计| H[Designer Agent]
    
    D --> I[结果聚合]
    E --> I
    F --> I
    G --> I
    H --> I
    
    I --> B
    B --> J[最终输出]

各 Agent 能力特征

Sisyphus（协调器）

作为中央调度中心，Sisyphus 负责：

意图识别：解析用户需求，判断任务类型和复杂度
任务分解：将复杂任务拆分为可并行执行的子任务
资源调度：根据任务特征分发给合适的 Agent
结果整合：汇总各 Agent 输出，形成最终响应

对模型的要求：需要强推理能力来理解复杂需求，同时要有较好的指令遵循能力。

Oracle（架构顾问）

Oracle 是只读的高 IQ 咨询 Agent，专用于：

复杂架构设计：多系统权衡、不熟悉模式咨询
深度调试：2+ 次失败修复尝试后的咨询
安全/性能决策：涉及安全和性能的重要决策

对模型的要求：最强的推理能力和领域知识，通常需要分配给能力最强的模型。

Librarian（资料检索）

Librarian 专注于外部资源搜索：

文档查询：官方 API 文档检索
最佳实践：社区最佳实践和模式搜索
开源参考：GitHub 等平台的代码示例搜索

对模型的要求：需要良好的信息整合能力，但对推理深度要求相对较低，可分配给成本较低的模型。

Developer（开发者）

Developer 负责代码实现：

代码生成：根据需求生成可运行的代码
代码重构：优化现有代码结构
Bug 修复：诊断并修复代码问题

对模型的要求：强编码能力、多语言支持、良好的上下文理解。

Designer（UI/UX 设计）

Designer 专注于界面和体验设计：

UI 实现：将设计稿转化为代码
交互设计：设计用户交互流程
视觉优化：美学调整和样式优化

对模型的要求：审美能力、前端技术栈熟练度、对设计规范的理解。

三款模型技术架构对比

GLM4.7（智谱 AI）

模型规格

参数项	规格
总参数量	358B（3580 亿）
激活参数	32B（320 亿）
架构类型	MoE（混合专家）
上下文长度	202K tokens
开源协议	MIT（可商用）

核心技术特点

MoE 架构优化：GLM4.7 采用稀疏激活的混合专家架构，每次推理仅激活约 9% 的参数。这种设计在保证模型容量的同时显著降低了推理成本，使得大规模参数模型也能在相对有限的硬件资源上运行。

编码能力突出：在 SWE-bench Verified 基准测试中，GLM4.7 获得 73.8% 的分数，处于开源模型第一梯队。其优势体现在：

多语言代码生成（支持 Python、Java、C++、JavaScript、Rust、Go 等）
前后端全栈开发能力
UI 设计美学提升，能生成符合现代设计规范的界面代码

上下文处理：202K 的上下文窗口使其能够处理大型代码库和复杂文档，适合长文档分析和多文件项目理解。

Kimi 2.5（月之暗面）

模型规格

参数项	规格
总参数量	1T（1 万亿）
激活参数	32B（320 亿）
专家数量	384 个
每层选择专家	8 个
上下文长度	256K-512K tokens
词表大小	160K

核心技术特点

超大规模 MoE 架构：Kimi 2.5 采用 1 万亿参数规模的 MoE 架构，但仅激活 32 亿参数（3.2%），实现了效率与能力的平衡。384 个专家的设计比 DeepSeek-V3 多出 50%，提供了更细粒度的专业知识分布。

原生多模态能力：

集成 MoonViT 视觉编码器（400M 参数）
支持文本、图像、视频理解
15 万亿混合视觉和文本 tokens 预训练

超长上下文处理：支持 256K 标准上下文，扩展模式可达 512K，是处理超长文档、大规模代码库分析的理想选择。

Agent 能力强化：

支持智能体群模式
可并行执行 1500 个工具调用
优秀的任务拆解和多步骤规划能力

MiniMax 2.5

模型规格

参数项	规格
总参数量	230B（2290 亿）
上下文长度	128K tokens
推理模式	常规模式 + 思考模式
开源协议	Modified MIT License

核心技术特点

编程能力 SOTA：MiniMax 2.5 在多个编程基准测试中达到业界领先水平：

SWE-Bench Verified：80.2%（刷新记录）
Multi-SWE-Bench：51.3%（业界第一）
BrowseComp（搜索）：76.3%

Agent 专用优化：

经过数十万个真实复杂环境的大规模强化学习训练
优化的任务拆解能力和 thinking token 效率
BFCL 工具调用评分：76.8%
相比 M2.1 版本，Agent 能力提升 10.6%

成本与速度优势：

输出价格：$1.20/百万 token（比 GLM-5 便宜 2.7 倍）
推理速度：50-100 TPS
连续工作 1 小时仅需 $0.3-$ 1.0

架构师思维模式：模型演化出了原生 Spec 行为，能够在写代码前主动拆解功能、结构和 UI 设计，实现完整的前期规划。

模型-任务匹配理论框架

匹配维度

基于以上技术特点，我们从以下维度评估模型与任务的匹配度：

维度	说明	评估指标
推理深度	复杂逻辑推理能力	数学/逻辑基准得分
编码能力	代码生成质量	SWE-bench 得分
上下文长度	长文档处理能力	支持的最大 token 数
多模态	图像/视频理解	是否支持及支持程度
成本效率	性价比	每百万 token 价格
响应速度	推理延迟	TPS（每秒 token 数）
Agent 能力	工具调用和任务规划	BFCL、任务完成率

匹配原则

能力适配原则：将任务分配给在该领域能力最强的模型
成本效益原则：在保证质量的前提下，优先使用低成本模型
上下文匹配原则：确保模型上下文长度能够覆盖任务需求
速度敏感原则：对响应速度敏感的任务选择推理更快的模型

参考资料

GLM-4.7 开源大模型实测与 API 接入指南 - GLM4.7 技术细节与实测
Kimi K2.5 深度分析：1万亿参数多模态智能体的技术突破 - Kimi 2.5 架构详解
MiniMax M2.5: 更快更强更智能，为真实世界生产力而生 - MiniMax 2.5 技术特性
MiniMax-M2.5 对比 GLM-5 各擅什么 - 模型对比分析