技术原理核心
oh-my-opencode 采用分层协作架构,通过 Sisyphus 协调器统一管理多个专业 Agent,形成类似人类开发团队的协作模式。理解这一架构是进行模型合理分配的前提。
oh-my-opencode 多 Agent 架构解析
oh-my-opencode 采用分层协作架构,通过 Sisyphus 协调器统一管理多个专业 Agent,形成类似人类开发团队的协作模式。理解这一架构是进行模型合理分配的前提。
核心组件架构
graph TD
A[用户输入] --> B[Sisyphus<br/>协调器]
B --> C{任务分类}
C -->|探索/研究| D[Explore Agent]
C -->|资料检索| E[Librarian Agent]
C -->|架构咨询| F[Oracle Agent]
C -->|代码实现| G[Developer Agent]
C -->|UI/UX设计| H[Designer Agent]
D --> I[结果聚合]
E --> I
F --> I
G --> I
H --> I
I --> B
B --> J[最终输出]
各 Agent 能力特征
Sisyphus(协调器)
作为中央调度中心,Sisyphus 负责:
- 意图识别:解析用户需求,判断任务类型和复杂度
- 任务分解:将复杂任务拆分为可并行执行的子任务
- 资源调度:根据任务特征分发给合适的 Agent
- 结果整合:汇总各 Agent 输出,形成最终响应
对模型的要求:需要强推理能力来理解复杂需求,同时要有较好的指令遵循能力。
Oracle(架构顾问)
Oracle 是只读的高 IQ 咨询 Agent,专用于:
- 复杂架构设计:多系统权衡、不熟悉模式咨询
- 深度调试:2+ 次失败修复尝试后的咨询
- 安全/性能决策:涉及安全和性能的重要决策
对模型的要求:最强的推理能力和领域知识,通常需要分配给能力最强的模型。
Librarian(资料检索)
Librarian 专注于外部资源搜索:
- 文档查询:官方 API 文档检索
- 最佳实践:社区最佳实践和模式搜索
- 开源参考:GitHub 等平台的代码示例搜索
对模型的要求:需要良好的信息整合能力,但对推理深度要求相对较低,可分配给成本较低的模型。
Developer(开发者)
Developer 负责代码实现:
- 代码生成:根据需求生成可运行的代码
- 代码重构:优化现有代码结构
- Bug 修复:诊断并修复代码问题
对模型的要求:强编码能力、多语言支持、良好的上下文理解。
Designer(UI/UX 设计)
Designer 专注于界面和体验设计:
- UI 实现:将设计稿转化为代码
- 交互设计:设计用户交互流程
- 视觉优化:美学调整和样式优化
对模型的要求:审美能力、前端技术栈熟练度、对设计规范的理解。
三款模型技术架构对比
GLM4.7(智谱 AI)
模型规格
| 参数项 | 规格 |
|---|---|
| 总参数量 | 358B(3580 亿) |
| 激活参数 | 32B(320 亿) |
| 架构类型 | MoE(混合专家) |
| 上下文长度 | 202K tokens |
| 开源协议 | MIT(可商用) |
核心技术特点
MoE 架构优化:GLM4.7 采用稀疏激活的混合专家架构,每次推理仅激活约 9% 的参数。这种设计在保证模型容量的同时显著降低了推理成本,使得大规模参数模型也能在相对有限的硬件资源上运行。
编码能力突出:在 SWE-bench Verified 基准测试中,GLM4.7 获得 73.8% 的分数,处于开源模型第一梯队。其优势体现在:
- 多语言代码生成(支持 Python、Java、C++、JavaScript、Rust、Go 等)
- 前后端全栈开发能力
- UI 设计美学提升,能生成符合现代设计规范的界面代码
上下文处理:202K 的上下文窗口使其能够处理大型代码库和复杂文档,适合长文档分析和多文件项目理解。
Kimi 2.5(月之暗面)
模型规格
| 参数项 | 规格 |
|---|---|
| 总参数量 | 1T(1 万亿) |
| 激活参数 | 32B(320 亿) |
| 专家数量 | 384 个 |
| 每层选择专家 | 8 个 |
| 上下文长度 | 256K-512K tokens |
| 词表大小 | 160K |
核心技术特点
超大规模 MoE 架构:Kimi 2.5 采用 1 万亿参数规模的 MoE 架构,但仅激活 32 亿参数(3.2%),实现了效率与能力的平衡。384 个专家的设计比 DeepSeek-V3 多出 50%,提供了更细粒度的专业知识分布。
原生多模态能力:
- 集成 MoonViT 视觉编码器(400M 参数)
- 支持文本、图像、视频理解
- 15 万亿混合视觉和文本 tokens 预训练
超长上下文处理:支持 256K 标准上下文,扩展模式可达 512K,是处理超长文档、大规模代码库分析的理想选择。
Agent 能力强化:
- 支持智能体群模式
- 可并行执行 1500 个工具调用
- 优秀的任务拆解和多步骤规划能力
MiniMax 2.5
模型规格
| 参数项 | 规格 |
|---|---|
| 总参数量 | 230B(2290 亿) |
| 上下文长度 | 128K tokens |
| 推理模式 | 常规模式 + 思考模式 |
| 开源协议 | Modified MIT License |
核心技术特点
编程能力 SOTA:MiniMax 2.5 在多个编程基准测试中达到业界领先水平:
- SWE-Bench Verified:80.2%(刷新记录)
- Multi-SWE-Bench:51.3%(业界第一)
- BrowseComp(搜索):76.3%
Agent 专用优化:
- 经过数十万个真实复杂环境的大规模强化学习训练
- 优化的任务拆解能力和 thinking token 效率
- BFCL 工具调用评分:76.8%
- 相比 M2.1 版本,Agent 能力提升 10.6%
成本与速度优势:
- 输出价格:$1.20/百万 token(比 GLM-5 便宜 2.7 倍)
- 推理速度:50-100 TPS
- 连续工作 1 小时仅需 1.0
架构师思维模式:模型演化出了原生 Spec 行为,能够在写代码前主动拆解功能、结构和 UI 设计,实现完整的前期规划。
模型-任务匹配理论框架
匹配维度
基于以上技术特点,我们从以下维度评估模型与任务的匹配度:
| 维度 | 说明 | 评估指标 |
|---|---|---|
| 推理深度 | 复杂逻辑推理能力 | 数学/逻辑基准得分 |
| 编码能力 | 代码生成质量 | SWE-bench 得分 |
| 上下文长度 | 长文档处理能力 | 支持的最大 token 数 |
| 多模态 | 图像/视频理解 | 是否支持及支持程度 |
| 成本效率 | 性价比 | 每百万 token 价格 |
| 响应速度 | 推理延迟 | TPS(每秒 token 数) |
| Agent 能力 | 工具调用和任务规划 | BFCL、任务完成率 |
匹配原则
- 能力适配原则:将任务分配给在该领域能力最强的模型
- 成本效益原则:在保证质量的前提下,优先使用低成本模型
- 上下文匹配原则:确保模型上下文长度能够覆盖任务需求
- 速度敏感原则:对响应速度敏感的任务选择推理更快的模型
参考资料
- GLM-4.7 开源大模型实测与 API 接入指南 - GLM4.7 技术细节与实测
- Kimi K2.5 深度分析:1万亿参数多模态智能体的技术突破 - Kimi 2.5 架构详解
- MiniMax M2.5: 更快更强更智能,为真实世界生产力而生 - MiniMax 2.5 技术特性
- MiniMax-M2.5 对比 GLM-5 各擅什么 - 模型对比分析