StepFun 阶跃星辰模型研究报告

技术研究人工智能 GitHub

本研究对阶跃星辰（StepFun）的 Step 系列大语言模型进行了深入分析，重点关注 Step-3.5-Flash 模型的各项性能指标、适用场景以及与竞品的对比。核心发现： 1. 编程能力突出：Step-3.5-Flash 在 LiveCodeBench（86.4%）、SWE-bench（74.4%）、Terminal-Bench（51.0%）三个编程相...

摘要

本研究对阶跃星辰（StepFun）的 Step 系列大语言模型进行了深入分析，重点关注 Step-3.5-Flash 模型的各项性能指标、适用场景以及与竞品的对比。

核心发现：

编程能力突出：Step-3.5-Flash 在 LiveCodeBench（86.4%）、SWE-bench（74.4%）、Terminal-Bench（51.0%）三个编程相关基准上均排名第一，在数学推理（IMO-AnswerBench 85.4%）方面也表现优异。
综合排名中等：在 Arena AI 综合排名中位列第 85 名，在对比的五家厂商（GLM、Kimi、MiniMax、Qwen、StepFun）中排名靠后。GLM-5（第 16 名）和 Qwen3 系列（多款进入前 50）在综合能力上更强。
性价比优势明显：提供免费版本（OpenRouter 平台），付费版本定价低廉（ $0.10/M 输入，$ 0.30/M 输出），对于预算有限的开发者极具吸引力。
架构先进：采用 MoE 架构，196B 总参数仅激活 11B，256K 上下文窗口，适合代码生成和长上下文处理场景。

结论：Step-3.5-Flash 是一款”专才型”模型，在编程和数学推理方面表现出色，适合作为编程辅助模型使用。对于主要需求是代码生成、算法辅助、且预算有限的用户，是强烈推荐的选择。但如需最佳综合能力，建议选择 GLM-5 或 Qwen3-Max。

背景与目标 - 研究问题、约束条件、公司背景
技术原理核心 - 模型架构、MoE 设计、技术特点
方案选型对比 - 五家厂商对比、Benchmark 数据、决策矩阵
关键代码验证 - API 调用示例、本地部署、工具集成
风险评估与结论 - 风险分析、适用场景、最终建议

核心对比数据

综合排名（Arena AI）

排名	模型	厂商
16	GLM-5	智谱
32	Qwen3-Max-Preview	阿里
33	Kimi K2.5-Instant	月之暗面
72	MiniMax M2.5	MiniMax
85	Step-3.5-Flash	阶跃星辰

编程能力排名

Benchmark	Step-3.5-Flash	排名
LiveCodeBench-V6	86.4%	第一
SWE-bench Verified	74.4%	第一
Terminal-Bench 2.0	51.0%	第一
IMO-AnswerBench	85.4%	领先

定价对比

模型	输入价格	输出价格	免费版
Step-3.5-Flash	$0.10/M	$0.30/M	✓

快速推荐

你的需求	推荐模型
编程助手 / 代码生成	Step-3.5-Flash
零预算 / 低成本	Step-3.5-Flash
综合能力最强	GLM-5
长文本处理	Kimi K2
开源生态 / 本地部署	Qwen3

核心参考资料

StepFun Official Site - 官方网站
Step-3.5-Flash Paper - 技术论文
Step-3.5-Flash GitHub - 开源实现
HuggingFace StepFun Models - 模型仓库
OpenRouter StepFun - API 平台
Arena AI Leaderboard - 综合排名