方案选型对比

技术研究人工智能 AI Agent

1. GLM-5 领先：智谱 GLM-5 排名第 16，是五家中综合能力最强的模型 2. Qwen3 紧随其后：Qwen3 系列多个版本进入前 50 3. Kimi K2 表现稳健：月之暗面的 K2 系列稳定在前 50 4. StepFun 中等偏后：Step-3.5-Flash 排名第 85，在五家中排名靠后 5. MiniMax 位置居中：M2.5 排名...

竞品概览

本研究对比五家中国大模型厂商的代表产品：

厂商	代表模型	公司背景
StepFun 阶跃星辰	Step-3.5-Flash	前微软亚洲研究院团队创立
GLM 智谱	GLM-4 / GLM-5	清华大学技术转化
Moonshot 月之暗面	Kimi K2	长上下文领域领先
MiniMax	MiniMax M2.5	多模态能力突出
Qwen 通义千问	Qwen3 系列	阿里云出品，开源生态完善

综合能力排名对比

根据 Arena AI 排行榜（2025年数据）：

排名	模型	厂商
16	GLM-5	智谱
29	GLM-4.7	智谱
32	Qwen3-Max-Preview	阿里
33	Kimi K2.5-Instant	月之暗面
37	Kimi K2-Thinking-Turbo	月之暗面
40	Qwen3-Max-2025-09-23	阿里
44	Qwen3-235B-A22B-Instruct	阿里
52	Kimi K2-0905-Preview	月之暗面
53	Kimi K2-0711-Preview	月之暗面
72	MiniMax M2.5	MiniMax
85	Step-3.5-Flash	阶跃星辰
92	MiniMax M2.1-Preview	MiniMax
131	Step-3	阶跃星辰

排名分析

从综合排名可以看出：

GLM-5 领先：智谱 GLM-5 排名第 16，是五家中综合能力最强的模型
Qwen3 紧随其后：Qwen3 系列多个版本进入前 50
Kimi K2 表现稳健：月之暗面的 K2 系列稳定在前 50
StepFun 中等偏后：Step-3.5-Flash 排名第 85，在五家中排名靠后
MiniMax 位置居中：M2.5 排名第 72

编程能力专项对比

LiveCodeBench-V6 成绩（2024.08-2025.05）

LiveCodeBench 是评估代码生成能力的权威基准，测试模型的实际编程能力。

模型	得分	排名参考
Step-3.5-Flash	86.4%	领先
Kimi K2-Thinking	85.0%	次席
Kimi K2.5-Thinking	83.1%	第三
DeepSeek V3.2	83.3%	对比参考
Step-3.5-Flash	86.4%	第一

SWE-bench Verified 成绩

SWE-bench 测试模型解决真实软件问题的能力。

模型	得分
Step-3.5-Flash	74.4%
DeepSeek V3.2	72.1%
Kimi K2-Thinking	71.3%
DeepSeek R1	68.5%

Terminal-Bench 2.0 成绩

Terminal-Bench 测试模型在终端环境中执行命令的能力，对编程场景尤为重要。

模型	得分
Step-3.5-Flash	51.0%
第二名	47.9%

编程能力小结

Step-3.5-Flash 在编程能力上表现突出：

LiveCodeBench-V6: 86.4%，领先所有对比模型
SWE-bench Verified: 74.4%，领先所有对比模型
Terminal-Bench 2.0: 51.0%，领先所有对比模型

这表明 StepFun 虽然综合排名中等，但在编程能力方面具有显著优势。

数学推理能力对比

IMO-AnswerBench 成绩

模型	得分
Step-3.5-Flash	85.4%
GPT-5.2 xHigh	参考基准
Gemini 3.0 Pro	参考基准

Step-3.5-Flash 在数学推理方面表现出色，在 MathArena（“不可作弊的数学竞赛基准”）上排名第一。

功能特性对比

特性	Step-3.5-Flash	GLM-5	Kimi K2	MiniMax M2.5	Qwen3-Max
上下文窗口	256K	128K	200K+	128K	128K
多模态	✓ (VL系列)	✓	✓	✓	✓
工具调用	✓	✓	✓	✓	✓
开源版本	✓	部分开源	✗	✗	✓
免费版本	✓ (OpenRouter)	✗	✓	✗	✗

定价对比

API 定价（每百万 tokens）

模型	输入价格	输出价格	免费版本
Step-3.5-Flash	$0.10	$0.30	✓
GLM-4	¥0.1/K tokens	¥0.1/K tokens	✗
Kimi K2	需查询	需查询	部分免费
MiniMax M2.5	需查询	需查询	✗
Qwen3-Max	需查询	需查询	✗

Step-3.5-Flash 的定价优势

Step-3.5-Flash 在 OpenRouter 平台上提供：

付费版本： $0.10/M 输入，$ 0.30/M 输出
免费版本：stepfun/step-3.5-flash:free

免费版本使用量：每周 449B tokens（数据来源：OpenRouter）

决策矩阵

场景推荐

使用场景	推荐模型	理由
编程助手	Step-3.5-Flash	LiveCodeBench 第一，性价比高
长文本处理	Kimi K2	200K+ 上下文，专门优化
综合能力	GLM-5	Arena 排名最高
开源部署	Qwen3	开源生态完善，社区活跃
多模态任务	MiniMax / Qwen3-VL	多模态能力强

成本敏感型选择

预算水平	推荐模型
零预算	Step-3.5-Flash (免费版)
低预算	Step-3.5-Flash、Qwen3
中等预算	GLM-4、Kimi K2
高预算	GLM-5、Qwen3-Max

为什么 Step-3.5-Flash 适合编程场景？

基于数据分析，Step-3.5-Flash 在编程场景的推荐理由：

Benchmark 领先：在 LiveCodeBench、SWE-bench、Terminal-Bench 三个编程相关基准上均排名第一
架构优化：MoE 架构配合 MTP-3，适合长代码生成
长上下文：256K 上下文窗口，可处理大型代码库
成本优势：提供免费版本，付费版价格低廉
Agent 能力：专为多轮交互设计，适合交互式编程助手场景

参考资料

Arena AI Leaderboard - 综合排名
Step-3.5-Flash GitHub - Benchmark 数据
OpenRouter StepFun - 定价信息