方案选型对比
技术研究 人工智能 AI Agent
1. GLM-5 领先:智谱 GLM-5 排名第 16,是五家中综合能力最强的模型 2. Qwen3 紧随其后:Qwen3 系列多个版本进入前 50 3. Kimi K2 表现稳健:月之暗面的 K2 系列稳定在前 50 4. StepFun 中等偏后:Step-3.5-Flash 排名第 85,在五家中排名靠后 5. MiniMax 位置居中:M2.5 排名...
竞品概览
本研究对比五家中国大模型厂商的代表产品:
| 厂商 | 代表模型 | 公司背景 |
|---|---|---|
| StepFun 阶跃星辰 | Step-3.5-Flash | 前微软亚洲研究院团队创立 |
| GLM 智谱 | GLM-4 / GLM-5 | 清华大学技术转化 |
| Moonshot 月之暗面 | Kimi K2 | 长上下文领域领先 |
| MiniMax | MiniMax M2.5 | 多模态能力突出 |
| Qwen 通义千问 | Qwen3 系列 | 阿里云出品,开源生态完善 |
综合能力排名对比
根据 Arena AI 排行榜(2025年数据):
| 排名 | 模型 | 厂商 |
|---|---|---|
| 16 | GLM-5 | 智谱 |
| 29 | GLM-4.7 | 智谱 |
| 32 | Qwen3-Max-Preview | 阿里 |
| 33 | Kimi K2.5-Instant | 月之暗面 |
| 37 | Kimi K2-Thinking-Turbo | 月之暗面 |
| 40 | Qwen3-Max-2025-09-23 | 阿里 |
| 44 | Qwen3-235B-A22B-Instruct | 阿里 |
| 52 | Kimi K2-0905-Preview | 月之暗面 |
| 53 | Kimi K2-0711-Preview | 月之暗面 |
| 72 | MiniMax M2.5 | MiniMax |
| 85 | Step-3.5-Flash | 阶跃星辰 |
| 92 | MiniMax M2.1-Preview | MiniMax |
| 131 | Step-3 | 阶跃星辰 |
排名分析
从综合排名可以看出:
- GLM-5 领先:智谱 GLM-5 排名第 16,是五家中综合能力最强的模型
- Qwen3 紧随其后:Qwen3 系列多个版本进入前 50
- Kimi K2 表现稳健:月之暗面的 K2 系列稳定在前 50
- StepFun 中等偏后:Step-3.5-Flash 排名第 85,在五家中排名靠后
- MiniMax 位置居中:M2.5 排名第 72
编程能力专项对比
LiveCodeBench-V6 成绩(2024.08-2025.05)
LiveCodeBench 是评估代码生成能力的权威基准,测试模型的实际编程能力。
| 模型 | 得分 | 排名参考 |
|---|---|---|
| Step-3.5-Flash | 86.4% | 领先 |
| Kimi K2-Thinking | 85.0% | 次席 |
| Kimi K2.5-Thinking | 83.1% | 第三 |
| DeepSeek V3.2 | 83.3% | 对比参考 |
| Step-3.5-Flash | 86.4% | 第一 |
SWE-bench Verified 成绩
SWE-bench 测试模型解决真实软件问题的能力。
| 模型 | 得分 |
|---|---|
| Step-3.5-Flash | 74.4% |
| DeepSeek V3.2 | 72.1% |
| Kimi K2-Thinking | 71.3% |
| DeepSeek R1 | 68.5% |
Terminal-Bench 2.0 成绩
Terminal-Bench 测试模型在终端环境中执行命令的能力,对编程场景尤为重要。
| 模型 | 得分 |
|---|---|
| Step-3.5-Flash | 51.0% |
| 第二名 | 47.9% |
编程能力小结
Step-3.5-Flash 在编程能力上表现突出:
- LiveCodeBench-V6: 86.4%,领先所有对比模型
- SWE-bench Verified: 74.4%,领先所有对比模型
- Terminal-Bench 2.0: 51.0%,领先所有对比模型
这表明 StepFun 虽然综合排名中等,但在编程能力方面具有显著优势。
数学推理能力对比
IMO-AnswerBench 成绩
| 模型 | 得分 |
|---|---|
| Step-3.5-Flash | 85.4% |
| GPT-5.2 xHigh | 参考基准 |
| Gemini 3.0 Pro | 参考基准 |
Step-3.5-Flash 在数学推理方面表现出色,在 MathArena(“不可作弊的数学竞赛基准”)上排名第一。
功能特性对比
| 特性 | Step-3.5-Flash | GLM-5 | Kimi K2 | MiniMax M2.5 | Qwen3-Max |
|---|---|---|---|---|---|
| 上下文窗口 | 256K | 128K | 200K+ | 128K | 128K |
| 多模态 | ✓ (VL系列) | ✓ | ✓ | ✓ | ✓ |
| 工具调用 | ✓ | ✓ | ✓ | ✓ | ✓ |
| 开源版本 | ✓ | 部分开源 | ✗ | ✗ | ✓ |
| 免费版本 | ✓ (OpenRouter) | ✗ | ✓ | ✗ | ✗ |
定价对比
API 定价(每百万 tokens)
| 模型 | 输入价格 | 输出价格 | 免费版本 |
|---|---|---|---|
| Step-3.5-Flash | $0.10 | $0.30 | ✓ |
| GLM-4 | ¥0.1/K tokens | ¥0.1/K tokens | ✗ |
| Kimi K2 | 需查询 | 需查询 | 部分免费 |
| MiniMax M2.5 | 需查询 | 需查询 | ✗ |
| Qwen3-Max | 需查询 | 需查询 | ✗ |
Step-3.5-Flash 的定价优势
Step-3.5-Flash 在 OpenRouter 平台上提供:
- 付费版本:0.30/M 输出
- 免费版本:stepfun/step-3.5-flash:free
免费版本使用量:每周 449B tokens(数据来源:OpenRouter)
决策矩阵
场景推荐
| 使用场景 | 推荐模型 | 理由 |
|---|---|---|
| 编程助手 | Step-3.5-Flash | LiveCodeBench 第一,性价比高 |
| 长文本处理 | Kimi K2 | 200K+ 上下文,专门优化 |
| 综合能力 | GLM-5 | Arena 排名最高 |
| 开源部署 | Qwen3 | 开源生态完善,社区活跃 |
| 多模态任务 | MiniMax / Qwen3-VL | 多模态能力强 |
成本敏感型选择
| 预算水平 | 推荐模型 |
|---|---|
| 零预算 | Step-3.5-Flash (免费版) |
| 低预算 | Step-3.5-Flash、Qwen3 |
| 中等预算 | GLM-4、Kimi K2 |
| 高预算 | GLM-5、Qwen3-Max |
为什么 Step-3.5-Flash 适合编程场景?
基于数据分析,Step-3.5-Flash 在编程场景的推荐理由:
- Benchmark 领先:在 LiveCodeBench、SWE-bench、Terminal-Bench 三个编程相关基准上均排名第一
- 架构优化:MoE 架构配合 MTP-3,适合长代码生成
- 长上下文:256K 上下文窗口,可处理大型代码库
- 成本优势:提供免费版本,付费版价格低廉
- Agent 能力:专为多轮交互设计,适合交互式编程助手场景
参考资料
- Arena AI Leaderboard - 综合排名
- Step-3.5-Flash GitHub - Benchmark 数据
- OpenRouter StepFun - 定价信息