StepFun 阶跃星辰模型研究报告
本研究对阶跃星辰(StepFun)的 Step 系列大语言模型进行了深入分析,重点关注 Step-3.5-Flash 模型的各项性能指标、适用场景以及与竞品的对比。 核心发现: 1. 编程能力突出:Step-3.5-Flash 在 LiveCodeBench(86.4%)、SWE-bench(74.4%)、Terminal-Bench(51.0%)三个编程相...
摘要
本研究对阶跃星辰(StepFun)的 Step 系列大语言模型进行了深入分析,重点关注 Step-3.5-Flash 模型的各项性能指标、适用场景以及与竞品的对比。
核心发现:
-
编程能力突出:Step-3.5-Flash 在 LiveCodeBench(86.4%)、SWE-bench(74.4%)、Terminal-Bench(51.0%)三个编程相关基准上均排名第一,在数学推理(IMO-AnswerBench 85.4%)方面也表现优异。
-
综合排名中等:在 Arena AI 综合排名中位列第 85 名,在对比的五家厂商(GLM、Kimi、MiniMax、Qwen、StepFun)中排名靠后。GLM-5(第 16 名)和 Qwen3 系列(多款进入前 50)在综合能力上更强。
-
性价比优势明显:提供免费版本(OpenRouter 平台),付费版本定价低廉(0.30/M 输出),对于预算有限的开发者极具吸引力。
-
架构先进:采用 MoE 架构,196B 总参数仅激活 11B,256K 上下文窗口,适合代码生成和长上下文处理场景。
结论:Step-3.5-Flash 是一款”专才型”模型,在编程和数学推理方面表现出色,适合作为编程辅助模型使用。对于主要需求是代码生成、算法辅助、且预算有限的用户,是强烈推荐的选择。但如需最佳综合能力,建议选择 GLM-5 或 Qwen3-Max。
目录
- 背景与目标 - 研究问题、约束条件、公司背景
- 技术原理核心 - 模型架构、MoE 设计、技术特点
- 方案选型对比 - 五家厂商对比、Benchmark 数据、决策矩阵
- 关键代码验证 - API 调用示例、本地部署、工具集成
- 风险评估与结论 - 风险分析、适用场景、最终建议
核心对比数据
综合排名(Arena AI)
| 排名 | 模型 | 厂商 |
|---|---|---|
| 16 | GLM-5 | 智谱 |
| 32 | Qwen3-Max-Preview | 阿里 |
| 33 | Kimi K2.5-Instant | 月之暗面 |
| 72 | MiniMax M2.5 | MiniMax |
| 85 | Step-3.5-Flash | 阶跃星辰 |
编程能力排名
| Benchmark | Step-3.5-Flash | 排名 |
|---|---|---|
| LiveCodeBench-V6 | 86.4% | 第一 |
| SWE-bench Verified | 74.4% | 第一 |
| Terminal-Bench 2.0 | 51.0% | 第一 |
| IMO-AnswerBench | 85.4% | 领先 |
定价对比
| 模型 | 输入价格 | 输出价格 | 免费版 |
|---|---|---|---|
| Step-3.5-Flash | $0.10/M | $0.30/M | ✓ |
快速推荐
| 你的需求 | 推荐模型 |
|---|---|
| 编程助手 / 代码生成 | Step-3.5-Flash |
| 零预算 / 低成本 | Step-3.5-Flash |
| 综合能力最强 | GLM-5 |
| 长文本处理 | Kimi K2 |
| 开源生态 / 本地部署 | Qwen3 |
核心参考资料
- StepFun Official Site - 官方网站
- Step-3.5-Flash Paper - 技术论文
- Step-3.5-Flash GitHub - 开源实现
- HuggingFace StepFun Models - 模型仓库
- OpenRouter StepFun - API 平台
- Arena AI Leaderboard - 综合排名