Logo
热心市民王先生

技术原理核心

技术研究 人工智能 AI Agent

阶跃星辰的 Step 系列模型经历了从 Dense 到 MoE 架构的演进,反映了行业从大参数向高效推理的趋势转变。

Step 系列模型架构演进

阶跃星辰的 Step 系列模型经历了从 Dense 到 MoE 架构的演进,反映了行业从”大参数”向”高效推理”的趋势转变。

Step-1 系列:基础文本模型

Step-1 是阶跃星辰的首代大语言模型,提供多种上下文窗口版本:

模型版本上下文窗口定位
Step-1-8K8K tokens基础对话
Step-1-32K32K tokens长文本处理
Step-1-128K128K tokens超长文档分析
Step-1V多模态图文理解

Step-1 系列采用传统的 Dense 架构,参数量在百亿级别,适合通用对话和基础任务。

Step-2 系列:迈向万亿参数

Step-2 标志着阶跃星辰向更大规模模型的迈进,采用 MoE(Mixture of Experts)架构。MoE 架构的核心优势在于:

  1. 稀疏激活:每次推理只激活部分专家网络,大幅降低计算成本
  2. 知识分离:不同专家负责不同领域,提高模型的专业性
  3. 扩展效率:可以在不线性增加推理成本的情况下扩展模型容量

Step-3.5-Flash:效率与性能的平衡

Step-3.5-Flash 是阶跃星辰最新的旗舰模型,代表了 MoE 架构的前沿实践。

核心参数

指标数值
总参数量196B(约 2000 亿)
激活参数11B(约 110 亿)
架构类型Sparse MoE
上下文窗口256K tokens
注意力机制交错 3:1 滑动窗口/全注意力
预测方式Multi-Token Prediction (MTP-3)

架构创新

1. 交错注意力机制(Interleaved Attention)

模型采用 3:1 的比例交替使用滑动窗口注意力和全注意力。滑动窗口注意力限制了注意力范围,降低计算复杂度;全注意力则确保全局信息的传递。这种设计在长上下文场景中尤为有效。

Token Sequence: [T1, T2, T3, T4, T5, T6, T7, T8, ...]
Attention Pattern:
  - T1-T3: Sliding Window (local context)
  - T4: Full Attention (global context)
  - T5-T7: Sliding Window
  - T8: Full Attention
  ...

2. 多 Token 预测(MTP-3)

传统模型每次预测一个 token,MTP-3 允许模型同时预测多个 token,提高了生成效率。这对于代码生成等需要长序列输出的场景特别有价值。

3. 强化学习训练框架

Step-3.5-Flash 使用可验证信号与偏好反馈相结合的强化学习框架,在数学、代码和工具使用方面实现了持续的自我改进。

多模态能力扩展

除了文本模型,阶跃星辰还推出了多个多模态模型:

Step3-VL 系列(视觉语言)

模型参数量用途
Step3-VL-10B10B图文理解、视觉问答
Step3-VL-10B-Base10B基础模型
Step3-VL-10B-FP810B量化版本

Step-Audio 系列(音频处理)

模型参数量用途
Step-Audio-R1.133B语音理解和生成
Step-Audio-EditX4B音频编辑
Step-Audio-2-mini-多模态音频

NextStep 系列(图像生成)

模型参数量用途
NextStep-1.1-Pretrain-256px15B文本到图像生成

为什么选择 MoE 架构?

阶跃星辰选择 MoE 架构的原因可以从以下角度理解:

推理效率

MoE 架构的核心优势在于”按需激活”。Step-3.5-Flash 虽然拥有 196B 总参数,但每次推理只激活约 11B 参数。这意味着:

  • 推理成本接近 11B 参数的 Dense 模型
  • 知识容量接近 196B 参数的 Dense 模型
  • 实现了”小模型成本,大模型能力”

长上下文处理

256K 的上下文窗口配合滑动窗口注意力,使得 Step-3.5-Flash 能够高效处理长文档、长代码库等场景。滑动窗口将注意力的计算复杂度从 O(n²) 降低到 O(n×w),其中 w 是窗口大小。

Agent 能力设计

Step-3.5-Flash 的设计目标是”Agentic Intelligence”——面向多轮对话、工具调用、复杂任务分解的场景。这与其强化学习训练框架的设计目标一致:在数学、代码、工具使用方面实现稳定的多轮交互。

参考资料