Logo
热心市民王先生

方案选型对比

技术研究 人工智能 AI Agent

1. GLM-5 领先:智谱 GLM-5 排名第 16,是五家中综合能力最强的模型 2. Qwen3 紧随其后:Qwen3 系列多个版本进入前 50 3. Kimi K2 表现稳健:月之暗面的 K2 系列稳定在前 50 4. StepFun 中等偏后:Step-3.5-Flash 排名第 85,在五家中排名靠后 5. MiniMax 位置居中:M2.5 排名...

竞品概览

本研究对比五家中国大模型厂商的代表产品:

厂商代表模型公司背景
StepFun 阶跃星辰Step-3.5-Flash前微软亚洲研究院团队创立
GLM 智谱GLM-4 / GLM-5清华大学技术转化
Moonshot 月之暗面Kimi K2长上下文领域领先
MiniMaxMiniMax M2.5多模态能力突出
Qwen 通义千问Qwen3 系列阿里云出品,开源生态完善

综合能力排名对比

根据 Arena AI 排行榜(2025年数据):

排名模型厂商
16GLM-5智谱
29GLM-4.7智谱
32Qwen3-Max-Preview阿里
33Kimi K2.5-Instant月之暗面
37Kimi K2-Thinking-Turbo月之暗面
40Qwen3-Max-2025-09-23阿里
44Qwen3-235B-A22B-Instruct阿里
52Kimi K2-0905-Preview月之暗面
53Kimi K2-0711-Preview月之暗面
72MiniMax M2.5MiniMax
85Step-3.5-Flash阶跃星辰
92MiniMax M2.1-PreviewMiniMax
131Step-3阶跃星辰

排名分析

从综合排名可以看出:

  1. GLM-5 领先:智谱 GLM-5 排名第 16,是五家中综合能力最强的模型
  2. Qwen3 紧随其后:Qwen3 系列多个版本进入前 50
  3. Kimi K2 表现稳健:月之暗面的 K2 系列稳定在前 50
  4. StepFun 中等偏后:Step-3.5-Flash 排名第 85,在五家中排名靠后
  5. MiniMax 位置居中:M2.5 排名第 72

编程能力专项对比

LiveCodeBench-V6 成绩(2024.08-2025.05)

LiveCodeBench 是评估代码生成能力的权威基准,测试模型的实际编程能力。

模型得分排名参考
Step-3.5-Flash86.4%领先
Kimi K2-Thinking85.0%次席
Kimi K2.5-Thinking83.1%第三
DeepSeek V3.283.3%对比参考
Step-3.5-Flash86.4%第一

SWE-bench Verified 成绩

SWE-bench 测试模型解决真实软件问题的能力。

模型得分
Step-3.5-Flash74.4%
DeepSeek V3.272.1%
Kimi K2-Thinking71.3%
DeepSeek R168.5%

Terminal-Bench 2.0 成绩

Terminal-Bench 测试模型在终端环境中执行命令的能力,对编程场景尤为重要。

模型得分
Step-3.5-Flash51.0%
第二名47.9%

编程能力小结

Step-3.5-Flash 在编程能力上表现突出

  • LiveCodeBench-V6: 86.4%,领先所有对比模型
  • SWE-bench Verified: 74.4%,领先所有对比模型
  • Terminal-Bench 2.0: 51.0%,领先所有对比模型

这表明 StepFun 虽然综合排名中等,但在编程能力方面具有显著优势。

数学推理能力对比

IMO-AnswerBench 成绩

模型得分
Step-3.5-Flash85.4%
GPT-5.2 xHigh参考基准
Gemini 3.0 Pro参考基准

Step-3.5-Flash 在数学推理方面表现出色,在 MathArena(“不可作弊的数学竞赛基准”)上排名第一。

功能特性对比

特性Step-3.5-FlashGLM-5Kimi K2MiniMax M2.5Qwen3-Max
上下文窗口256K128K200K+128K128K
多模态✓ (VL系列)
工具调用
开源版本部分开源
免费版本✓ (OpenRouter)

定价对比

API 定价(每百万 tokens)

模型输入价格输出价格免费版本
Step-3.5-Flash$0.10$0.30
GLM-4¥0.1/K tokens¥0.1/K tokens
Kimi K2需查询需查询部分免费
MiniMax M2.5需查询需查询
Qwen3-Max需查询需查询

Step-3.5-Flash 的定价优势

Step-3.5-Flash 在 OpenRouter 平台上提供:

  1. 付费版本0.10/M输入,0.10/M 输入,0.30/M 输出
  2. 免费版本:stepfun/step-3.5-flash:free

免费版本使用量:每周 449B tokens(数据来源:OpenRouter)

决策矩阵

场景推荐

使用场景推荐模型理由
编程助手Step-3.5-FlashLiveCodeBench 第一,性价比高
长文本处理Kimi K2200K+ 上下文,专门优化
综合能力GLM-5Arena 排名最高
开源部署Qwen3开源生态完善,社区活跃
多模态任务MiniMax / Qwen3-VL多模态能力强

成本敏感型选择

预算水平推荐模型
零预算Step-3.5-Flash (免费版)
低预算Step-3.5-Flash、Qwen3
中等预算GLM-4、Kimi K2
高预算GLM-5、Qwen3-Max

为什么 Step-3.5-Flash 适合编程场景?

基于数据分析,Step-3.5-Flash 在编程场景的推荐理由:

  1. Benchmark 领先:在 LiveCodeBench、SWE-bench、Terminal-Bench 三个编程相关基准上均排名第一
  2. 架构优化:MoE 架构配合 MTP-3,适合长代码生成
  3. 长上下文:256K 上下文窗口,可处理大型代码库
  4. 成本优势:提供免费版本,付费版价格低廉
  5. Agent 能力:专为多轮交互设计,适合交互式编程助手场景

参考资料