技术原理核心
阶跃星辰的 Step 系列模型经历了从 Dense 到 MoE 架构的演进,反映了行业从大参数向高效推理的趋势转变。
Step 系列模型架构演进
阶跃星辰的 Step 系列模型经历了从 Dense 到 MoE 架构的演进,反映了行业从”大参数”向”高效推理”的趋势转变。
Step-1 系列:基础文本模型
Step-1 是阶跃星辰的首代大语言模型,提供多种上下文窗口版本:
| 模型版本 | 上下文窗口 | 定位 |
|---|---|---|
| Step-1-8K | 8K tokens | 基础对话 |
| Step-1-32K | 32K tokens | 长文本处理 |
| Step-1-128K | 128K tokens | 超长文档分析 |
| Step-1V | 多模态 | 图文理解 |
Step-1 系列采用传统的 Dense 架构,参数量在百亿级别,适合通用对话和基础任务。
Step-2 系列:迈向万亿参数
Step-2 标志着阶跃星辰向更大规模模型的迈进,采用 MoE(Mixture of Experts)架构。MoE 架构的核心优势在于:
- 稀疏激活:每次推理只激活部分专家网络,大幅降低计算成本
- 知识分离:不同专家负责不同领域,提高模型的专业性
- 扩展效率:可以在不线性增加推理成本的情况下扩展模型容量
Step-3.5-Flash:效率与性能的平衡
Step-3.5-Flash 是阶跃星辰最新的旗舰模型,代表了 MoE 架构的前沿实践。
核心参数
| 指标 | 数值 |
|---|---|
| 总参数量 | 196B(约 2000 亿) |
| 激活参数 | 11B(约 110 亿) |
| 架构类型 | Sparse MoE |
| 上下文窗口 | 256K tokens |
| 注意力机制 | 交错 3:1 滑动窗口/全注意力 |
| 预测方式 | Multi-Token Prediction (MTP-3) |
架构创新
1. 交错注意力机制(Interleaved Attention)
模型采用 3:1 的比例交替使用滑动窗口注意力和全注意力。滑动窗口注意力限制了注意力范围,降低计算复杂度;全注意力则确保全局信息的传递。这种设计在长上下文场景中尤为有效。
Token Sequence: [T1, T2, T3, T4, T5, T6, T7, T8, ...]
Attention Pattern:
- T1-T3: Sliding Window (local context)
- T4: Full Attention (global context)
- T5-T7: Sliding Window
- T8: Full Attention
...
2. 多 Token 预测(MTP-3)
传统模型每次预测一个 token,MTP-3 允许模型同时预测多个 token,提高了生成效率。这对于代码生成等需要长序列输出的场景特别有价值。
3. 强化学习训练框架
Step-3.5-Flash 使用可验证信号与偏好反馈相结合的强化学习框架,在数学、代码和工具使用方面实现了持续的自我改进。
多模态能力扩展
除了文本模型,阶跃星辰还推出了多个多模态模型:
Step3-VL 系列(视觉语言)
| 模型 | 参数量 | 用途 |
|---|---|---|
| Step3-VL-10B | 10B | 图文理解、视觉问答 |
| Step3-VL-10B-Base | 10B | 基础模型 |
| Step3-VL-10B-FP8 | 10B | 量化版本 |
Step-Audio 系列(音频处理)
| 模型 | 参数量 | 用途 |
|---|---|---|
| Step-Audio-R1.1 | 33B | 语音理解和生成 |
| Step-Audio-EditX | 4B | 音频编辑 |
| Step-Audio-2-mini | - | 多模态音频 |
NextStep 系列(图像生成)
| 模型 | 参数量 | 用途 |
|---|---|---|
| NextStep-1.1-Pretrain-256px | 15B | 文本到图像生成 |
为什么选择 MoE 架构?
阶跃星辰选择 MoE 架构的原因可以从以下角度理解:
推理效率
MoE 架构的核心优势在于”按需激活”。Step-3.5-Flash 虽然拥有 196B 总参数,但每次推理只激活约 11B 参数。这意味着:
- 推理成本接近 11B 参数的 Dense 模型
- 知识容量接近 196B 参数的 Dense 模型
- 实现了”小模型成本,大模型能力”
长上下文处理
256K 的上下文窗口配合滑动窗口注意力,使得 Step-3.5-Flash 能够高效处理长文档、长代码库等场景。滑动窗口将注意力的计算复杂度从 O(n²) 降低到 O(n×w),其中 w 是窗口大小。
Agent 能力设计
Step-3.5-Flash 的设计目标是”Agentic Intelligence”——面向多轮对话、工具调用、复杂任务分解的场景。这与其强化学习训练框架的设计目标一致:在数学、代码、工具使用方面实现稳定的多轮交互。
参考资料
- Step-3.5-Flash Paper - 技术论文
- Step-3.5-Flash GitHub - 开源实现
- HuggingFace StepFun Models - 模型仓库