技术原理核心

技术研究人工智能 AI Agent

阶跃星辰的 Step 系列模型经历了从 Dense 到 MoE 架构的演进，反映了行业从大参数向高效推理的趋势转变。

Step 系列模型架构演进

阶跃星辰的 Step 系列模型经历了从 Dense 到 MoE 架构的演进，反映了行业从”大参数”向”高效推理”的趋势转变。

Step-1 系列：基础文本模型

Step-1 是阶跃星辰的首代大语言模型，提供多种上下文窗口版本：

模型版本	上下文窗口	定位
Step-1-8K	8K tokens	基础对话
Step-1-32K	32K tokens	长文本处理
Step-1-128K	128K tokens	超长文档分析
Step-1V	多模态	图文理解

Step-1 系列采用传统的 Dense 架构，参数量在百亿级别，适合通用对话和基础任务。

Step-2 系列：迈向万亿参数

Step-2 标志着阶跃星辰向更大规模模型的迈进，采用 MoE（Mixture of Experts）架构。MoE 架构的核心优势在于：

稀疏激活：每次推理只激活部分专家网络，大幅降低计算成本
知识分离：不同专家负责不同领域，提高模型的专业性
扩展效率：可以在不线性增加推理成本的情况下扩展模型容量

Step-3.5-Flash：效率与性能的平衡

Step-3.5-Flash 是阶跃星辰最新的旗舰模型，代表了 MoE 架构的前沿实践。

核心参数

指标	数值
总参数量	196B（约 2000 亿）
激活参数	11B（约 110 亿）
架构类型	Sparse MoE
上下文窗口	256K tokens
注意力机制	交错 3:1 滑动窗口/全注意力
预测方式	Multi-Token Prediction (MTP-3)

架构创新

1. 交错注意力机制（Interleaved Attention）

模型采用 3:1 的比例交替使用滑动窗口注意力和全注意力。滑动窗口注意力限制了注意力范围，降低计算复杂度；全注意力则确保全局信息的传递。这种设计在长上下文场景中尤为有效。

Token Sequence: [T1, T2, T3, T4, T5, T6, T7, T8, ...]
Attention Pattern:
  - T1-T3: Sliding Window (local context)
  - T4: Full Attention (global context)
  - T5-T7: Sliding Window
  - T8: Full Attention
  ...

2. 多 Token 预测（MTP-3）

传统模型每次预测一个 token，MTP-3 允许模型同时预测多个 token，提高了生成效率。这对于代码生成等需要长序列输出的场景特别有价值。

3. 强化学习训练框架

Step-3.5-Flash 使用可验证信号与偏好反馈相结合的强化学习框架，在数学、代码和工具使用方面实现了持续的自我改进。

多模态能力扩展

除了文本模型，阶跃星辰还推出了多个多模态模型：

Step3-VL 系列（视觉语言）

模型	参数量	用途
Step3-VL-10B	10B	图文理解、视觉问答
Step3-VL-10B-Base	10B	基础模型
Step3-VL-10B-FP8	10B	量化版本

Step-Audio 系列（音频处理）

模型	参数量	用途
Step-Audio-R1.1	33B	语音理解和生成
Step-Audio-EditX	4B	音频编辑
Step-Audio-2-mini	-	多模态音频

NextStep 系列（图像生成）

模型	参数量	用途
NextStep-1.1-Pretrain-256px	15B	文本到图像生成

为什么选择 MoE 架构？

阶跃星辰选择 MoE 架构的原因可以从以下角度理解：

推理效率

MoE 架构的核心优势在于”按需激活”。Step-3.5-Flash 虽然拥有 196B 总参数，但每次推理只激活约 11B 参数。这意味着：

推理成本接近 11B 参数的 Dense 模型
知识容量接近 196B 参数的 Dense 模型
实现了”小模型成本，大模型能力”

长上下文处理

256K 的上下文窗口配合滑动窗口注意力，使得 Step-3.5-Flash 能够高效处理长文档、长代码库等场景。滑动窗口将注意力的计算复杂度从 O(n²) 降低到 O(n×w)，其中 w 是窗口大小。

Agent 能力设计

Step-3.5-Flash 的设计目标是”Agentic Intelligence”——面向多轮对话、工具调用、复杂任务分解的场景。这与其强化学习训练框架的设计目标一致：在数学、代码、工具使用方面实现稳定的多轮交互。

参考资料

Step-3.5-Flash Paper - 技术论文
Step-3.5-Flash GitHub - 开源实现
HuggingFace StepFun Models - 模型仓库