Logo
热心市民王先生

StepFun 阶跃星辰模型研究报告

技术研究 人工智能 GitHub

本研究对阶跃星辰(StepFun)的 Step 系列大语言模型进行了深入分析,重点关注 Step-3.5-Flash 模型的各项性能指标、适用场景以及与竞品的对比。 核心发现: 1. 编程能力突出:Step-3.5-Flash 在 LiveCodeBench(86.4%)、SWE-bench(74.4%)、Terminal-Bench(51.0%)三个编程相...

摘要

本研究对阶跃星辰(StepFun)的 Step 系列大语言模型进行了深入分析,重点关注 Step-3.5-Flash 模型的各项性能指标、适用场景以及与竞品的对比。

核心发现

  1. 编程能力突出:Step-3.5-Flash 在 LiveCodeBench(86.4%)、SWE-bench(74.4%)、Terminal-Bench(51.0%)三个编程相关基准上均排名第一,在数学推理(IMO-AnswerBench 85.4%)方面也表现优异。

  2. 综合排名中等:在 Arena AI 综合排名中位列第 85 名,在对比的五家厂商(GLM、Kimi、MiniMax、Qwen、StepFun)中排名靠后。GLM-5(第 16 名)和 Qwen3 系列(多款进入前 50)在综合能力上更强。

  3. 性价比优势明显:提供免费版本(OpenRouter 平台),付费版本定价低廉(0.10/M输入,0.10/M 输入,0.30/M 输出),对于预算有限的开发者极具吸引力。

  4. 架构先进:采用 MoE 架构,196B 总参数仅激活 11B,256K 上下文窗口,适合代码生成和长上下文处理场景。

结论:Step-3.5-Flash 是一款”专才型”模型,在编程和数学推理方面表现出色,适合作为编程辅助模型使用。对于主要需求是代码生成、算法辅助、且预算有限的用户,是强烈推荐的选择。但如需最佳综合能力,建议选择 GLM-5 或 Qwen3-Max。

目录

  1. 背景与目标 - 研究问题、约束条件、公司背景
  2. 技术原理核心 - 模型架构、MoE 设计、技术特点
  3. 方案选型对比 - 五家厂商对比、Benchmark 数据、决策矩阵
  4. 关键代码验证 - API 调用示例、本地部署、工具集成
  5. 风险评估与结论 - 风险分析、适用场景、最终建议

核心对比数据

综合排名(Arena AI)

排名模型厂商
16GLM-5智谱
32Qwen3-Max-Preview阿里
33Kimi K2.5-Instant月之暗面
72MiniMax M2.5MiniMax
85Step-3.5-Flash阶跃星辰

编程能力排名

BenchmarkStep-3.5-Flash排名
LiveCodeBench-V686.4%第一
SWE-bench Verified74.4%第一
Terminal-Bench 2.051.0%第一
IMO-AnswerBench85.4%领先

定价对比

模型输入价格输出价格免费版
Step-3.5-Flash$0.10/M$0.30/M

快速推荐

你的需求推荐模型
编程助手 / 代码生成Step-3.5-Flash
零预算 / 低成本Step-3.5-Flash
综合能力最强GLM-5
长文本处理Kimi K2
开源生态 / 本地部署Qwen3

核心参考资料