[硅基写手] Recursive Multi-Agent Systems: 潜空间递归多智能体协作新范式

论文解读 AI研究多智能体系统递归推理大语言模型

斯坦福最新研究RecursiveMAS通过潜空间递归计算连接异构智能体，实现8.3%准确率提升和2.4倍推理加速。本文深度解析其轻量级RecursiveLink架构、内外循环训练算法及在9个基准上的卓越表现，揭示多智能体系统从文本交互向潜空间协作演进的关键技术路径。

Executive Summary

RecursiveMAS代表了多智能体系统(MAS)架构的根本性范式转变。传统MAS依赖文本介导的交互，每次通信都需要完整的token生成和解码，导致计算开销高昂且梯度传播困难。斯坦福团队提出的RecursiveMAS框架将递归语言模型(RLM)的scaling原则从单模型扩展到多智能体系统，通过轻量级RecursiveLink模块在潜空间(latent space)中连接异构智能体，实现了平均8.3%的准确率提升、1.2-2.4倍的推理加速，以及34.6%-75.6%的token使用量减少。

该框架的核心创新在于将每个智能体视为RLM的一层，通过双层残差投影模块RecursiveLink在智能体间传递潜状态表示。相比文本递归基线(Recursive-TextMAS)，RecursiveMAS在数学推理(MATH500达88.2%)、科学问答(GPQA-Diamond达66.2%)和代码生成(LiveCodeBench达42.9%)等9个基准上展现出显著优势。理论上，递归深度为r时，RecursiveMAS的运行时复杂度为O(N*(m*d_h² + (t+m)d_h² + (t+m)²d_h))，避免了文本递归中O(|V|)的词汇表投影开销；同时通过潜空间连接保持了稳定的梯度流，解决了文本递归中梯度消失的关键问题。

然而，RecursiveMAS也存在明显局限：仅训练RecursiveLink而不更新基础模型参数限制了智能体能力的上限；潜空间表示的可解释性较差；对异构智能体hidden dimension的对齐依赖W3线性层可能引入信息损失。这些限制决定了它更适合作为现有LLM的能力增强层，而非独立解决方案。

Section 1: 问题空间深度剖析

1.1 从单智能体到多智能体系统的演进

大语言模型(LLM)的能力边界持续扩展，但单一模型在复杂任务上仍面临根本性的瓶颈。2023年以来的研究表明，即使是参数量达千亿级别的模型，在需要多步推理、跨领域知识整合和长期规划的复杂问题上仍存在”近视生成”(myopic generation)和”探索效率低下”的问题[Shojaee et al., 2025; Song et al., 2026]。当单个智能体的能力达到阈值后，自然的技术演进方向是将多个模型组织为协作系统。

多智能体系统(MAS)通过角色分工和协同推理扩展能力边界。现有MAS架构主要分为两类：顺序流水线式(Sequential Pipeline)将问题分解为规划、评判、求解等阶段依次处理[Gu et al., 2025]；混合专家式(Mixture-of-Experts)则并行调用领域专家(数学、代码、科学)后聚合结果[Ye et al., 2025]。然而，传统MAS面临两个核心挑战：

通信开销：基于文本的交互要求每个智能体完成完整的token生成和解码，N个智能体协作一次就需要N次完整的forward-backward循环；
优化困难：训练整个MAS需要同时更新所有智能体参数，但模型规模庞大(通常1B-70B参数)使得全参数微调不切实际，且文本介导的通信引入了不可导的离散化操作。

1.2 递归语言模型的兴起

2024-2025年，递归语言模型(RLM)作为新的scaling维度崭露头角。与通过增加层数或参数量来扩展模型不同，RLM通过在潜空间内迭代细化同一组模型计算来深化推理[Zhang et al., 2025a]。数学上，传统Transformer将输入E通过L层堆栈处理一次：

$H^{(output)} = f_\theta(E) = \mathcal{M}_L \circ \cdots \circ \mathcal{M}_1(E)$

而递归模型将同一堆栈重复应用n次：

$H^{(r)} = f_\theta(H^{(r-1)}), \quad r=1,\dots,n$

这种设计实现了推理深度的可扩展性——通过增加递归轮次而非模型参数量来提升性能。然而，RLM主要应用于单模型场景，尚未探索其在多智能体协作中的潜力。

1.3 潜空间交互的理论动机

文本介导的MAS交互存在根本性的计算和优化瓶颈：

计算复杂度分析：设智能体数量为N，每个生成m个潜状态，隐藏维度为d_h，词汇表大小为|V|。文本递归需要将每个智能体的输出投影到词汇表(复杂度O(m|V|d_h))，再编码为下一个智能体的输入。相比之下，潜空间交互直接传递hidden states，避免了昂贵的词汇表投影。

梯度传播分析：文本生成涉及从连续潜状态到离散token的argmax采样，这一操作梯度几乎处处为零。当递归深度增加时，梯度反向传播经过多个离散化点会导致梯度消失，使得端到端训练难以收敛。

RecursiveMAS正是为解决这些根本性问题而设计，将潜空间递归计算从单模型推广到多智能体系统。

Section 2: 技术深度解析

2.1 RecursiveMAS整体架构

RecursiveMAS的核心设计哲学是将整个多智能体系统视为统一的潜空间递归计算。系统包含N个异构智能体 $\mathcal{A}=\{A_1,\dots,A_N\}$ ，每个智能体 $A_i$ 对应一个Transformer模型 $f_{\theta_i}$ 。与传统MAS不同，智能体间不通过文本通信，而是通过轻量级RecursiveLink模块 $\mathcal{R}$ 在潜空间中传递信息。

flowchart TB
    subgraph "递归轮次 r=1"
        A1[Agent A₁<br/>Planner<br/>Qwen3-1.7B] -->|H_A₁| R12[RecursiveLink<br/>𝒭_out]
        R12 -->|Embeddings| A2[Agent A₂<br/>Critic<br/>Llama3.2-1B]
        A2 -->|H_A₂| R23[RecursiveLink<br/>𝒭_out]
        R23 -->|Embeddings| A3[Agent A₃<br/>Solver<br/>Qwen2.5-Math-1.5B]
    end
    
    A3 -->|H_A₃闭环| R31[RecursiveLink<br/>𝒭_out]
    R31 -->|下一轮回路| A1
    
    subgraph "递归轮次 r=n (最终)"
        A3n[Agent A₃] -->|Decode| Output[最终输出<br/>Text Answer]
    end
    
    style R12 fill:#e1f5fe
    style R23 fill:#e1f5fe
    style R31 fill:#e1f5fe
    style Output fill:#c8e6c9

图1：RecursiveMAS架构示意图。智能体通过RecursiveLink在潜空间中连接形成递归回路，仅在最终轮次解码为文本输出。

2.2 RecursiveLink：双层残差投影模块

RecursiveLink是RecursiveMAS的核心创新，负责潜状态的传输和转换。其设计需要解决两个技术挑战：(1) 稠密到浅层转换——将last-layer embeddings映射回input embedding空间以支持自回归生成；(2) 跨模型转换——在不同hidden dimension的异构模型间对齐表示空间。

Inner RecursiveLink（模型内部）：

对于每个智能体 $A_i$ ，Inner Link $\mathcal{R}_{\text{in}}$ 将last-layer hidden state $h$ 映射回input embedding空间：

$\mathcal{R}_{\text{in}}(h) = h + W_2 \cdot \sigma(W_1 h)$

其中 $W_1, W_2$ 是线性层， $\sigma$ 是GELU激活函数。残差连接保留原始语义信息，使潜思想生成保持连贯性。

Outer RecursiveLink（跨模型）：

Outer Link $\mathcal{R}_{\text{out}}$ 连接不同hidden dimension的异构智能体，引入额外的线性层 $W_3$ 进行维度对齐：

$\mathcal{R}_{\text{out}}(h) = W_3 h + W_2 \cdot \sigma(W_1 h)$

这一设计仅增加极少量可训练参数（通常<0.1%的模型参数量），却实现了异构模型间的无缝信息传递。

2.3 内外循环训练算法

RecursiveMAS采用两阶段训练策略，仅优化RecursiveLink参数而冻结基础LLM权重：

阶段一：Inner Loop（模型级预热）

目标是为每个智能体配备强大的潜思想生成能力。对于训练样本 $(x, y)$ ，将ground-truth文本 $y$ 通过Agent $A_i$ 的embedding层 $\text{Emb}_{\theta_i}$ 获得目标分布，训练Inner Link以最小化余弦距离：

$\mathcal{L}_{\text{in}} = 1 - \cos\big(\mathcal{R}_{\text{in}}(H), \text{Emb}_{\theta_i}(y)\big)$

这一损失鼓励智能体通过Inner Link生成与原始语义对齐的潜表示，避免了显式解码-再编码过程。

阶段二：Outer Loop（系统级优化）

将系统沿递归结构展开n轮，使用交叉熵损失联合优化所有Outer Link：

$\mathcal{L}_{\text{out}} = \text{CE}\big(\mathcal{S}^{(n)}(\mathcal{S}^{(n-1)}(\cdots\mathcal{S}^{(1)}(x))), y\big)$

梯度沿完整递归路径反向传播，为每个Outer Link分配全局贡献信号，实现整个系统的协同优化。

flowchart LR
    subgraph "Inner Loop<br/>模型级预热"
        D1[训练数据<br/>(x,y)] --> E1[Embedding<br/>Emb_θ(y)]
        A1[Agent A_i] --> H1[潜思想<br/>H]
        H1 --> R1[InnerLink<br/>𝒭_in]
        R1 --> L1[损失<br/>1-cos(R_in(H), Emb(y))]
    end
    
    subgraph "Outer Loop<br/>系统级优化"
        D2[输入x] --> S1[系统状态<br/>𝒮⁽¹⁾]
        S1 --> S2[𝒮⁽²⁾]
        S2 --> S3[...]
        S3 --> Sn[𝒮⁽ⁿ⁾]
        Sn --> Loss[交叉熵损失<br/>CE(S⁽ⁿ⁾, y)]
        Loss -.->|梯度反向传播| S3
        Loss -.->|优化| S2
        Loss -.->|优化| S1
    end
    
    L1 -.->|完成| S1
    
    style Inner Loop fill:#fff3e0
    style Outer Loop fill:#e3f2fd

图2：RecursiveMAS两阶段训练流程。Inner Loop为每个智能体单独预热潜思想生成能力；Outer Loop联合优化整个递归系统的Outer Link参数。

2.4 运行时复杂度理论分析

RecursiveMAS在架构上显著优于文本递归MAS。形式化地：

命题3.1（运行时复杂度）：设智能体数量N，每轮生成m个潜状态，输入长度t，hidden dimension $d_h$ ，词汇表大小 $|V|$ 。

文本递归MAS复杂度： $\Theta\big(N(m|V|d_h + (t+m)d_h^2 + (t+m)^2d_h)\big)$
RecursiveMAS复杂度： $\Theta\big(N(md_h^2 + (t+m)d_h^2 + (t+m)^2d_h)\big)$

差距在于 $O(m|V|d_h)$ 项——文本递归需要将每个token投影到词汇表空间（词汇表通常50K-100K），而潜空间交互完全避免了这一开销。当 $m \approx 100, |V| = 50000, d_h = 4096$ 时，这一项的节省可达数十亿次浮点运算。

2.5 梯度稳定性理论保证

定理4.1（梯度稳定性）：在合理假设下（详见论文Appendix A.2），当token熵 $\leq \epsilon$ （通常 $\epsilon \ll 1$ ）：

文本递归在递归过程中遭受梯度消失： $\|\partial \mathcal{R}_{\text{text}}(h) / \partial h\|_2 \leq O(\epsilon) \ll 1$
RecursiveMAS保持近常数梯度： $\|\partial \mathcal{R}(h) / \partial h\|_2 \geq \Omega(1 - \sqrt{\frac{1}{d_h}\log\frac{1}{\delta}})$

这一理论结果解释了为什么潜空间交互更易于端到端训练：梯度不会在递归深度增加时指数级衰减，使得多轮协同优化成为可能。

Section 3: 协作模式与实验验证

3.1 四种代表性协作模式

RecursiveMAS是架构无关的，可适配多种MAS协作模式。论文评估了四种典型配置：

协作模式	智能体配置	典型应用场景
Sequential	Planner → Critic → Solver	复杂多步推理
Mixture	Math + Code + Science → Summarizer	跨领域知识整合
Distillation	Expert (9B) → Learner (4B)	知识蒸馏与效率优化
Deliberation	Reflector ↔ Tool-Caller	工具增强推理

每种模式使用不同模型家族(Qwen、Llama、Gemma、Mistral)构建异构智能体组合，验证RecursiveMAS的通用性。

3.2 主要实验结果

在9个基准上的全面评估显示RecursiveMAS的显著优势：

数学推理：

MATH500：Light配置从71.9%提升至77.8%(r=3)，Scaled配置达88.2%
AIME2025/2026：从24%/16.7%跃升至34%/20%，Scaled版本更达86.7%

科学问答：

GPQA-Diamond：从58.6%提升至66.2%(+7.6%)
MedQA：从77.1%提升至79.3%(+2.2%)

代码生成：

LiveCodeBench：从38.5%提升至42.9%(+4.4%)
MBPP+：Light配置从30.7%提升至37.4%(+6.7%)

效率指标：

推理速度：1.2×-2.4×加速
Token使用：34.6%-75.6%减少
随着递归深度增加(r=1→3)，效率优势进一步扩大

xychart-beta
    title "RecursiveMAS性能与效率权衡 (r=3 vs 文本递归)"
    x-axis ["MATH500", "AIME2025", "AIME2026", "GPQA-D", "MedQA", "CodeGen"]
    y-axis "准确率提升 (%)" 0 --> 10
    bar [5.9, 11.0, 3.3, 3.9, 3.4, 6.3]
    
    y-axis "Token减少 (%)" 0 --> 80
    line "Token Reduction" [75.6, 72.3, 68.9, 71.2, 73.4, 74.1]

图3：RecursiveMAS在9个基准上的准确率提升和token使用减少。柱状图显示相比文本递归的准确率增益，折线显示token效率改进。

3.3 训练-推理联合Scaling规律

论文揭示了RecursiveMAS中训练与推理递归深度的互补效应：

增加推理深度持续改善较少训练轮次的系统性能
增加训练深度将整个性能前沿向上推移
最优结果出现在训练深度与推理深度均较大的区域(图1右上)

这一发现表明，RecursiveMAS的递归能力并非简单的test-time计算扩展，而是通过训练学会了如何生成”适合细化的潜状态”——这是与纯test-time方法(如CoT自一致性)的本质区别。

Section 4: 对比分析

4.1 vs 单智能体方法

维度	Single Agent (LoRA/Full-SFT)	RecursiveMAS
MATH500	83.1% / 83.2%	88.2% (+5.0%)
GPQA-D	62.0% / 62.8%	66.2% (+3.4%)
LiveCodeBench	37.4% / 38.6%	42.9% (+4.3%)
参数量更新	全部/LoRA	仅RecursiveLink (<0.1%)
推理成本	单次forward	1.2-2.4×加速

单智能体方法需要更新模型参数（Full-SFT）或大量LoRA参数，训练和部署成本高昂。RecursiveMAS仅训练轻量级投影模块，在显著降低训练成本的同时实现更高性能。

4.2 vs 其他MAS框架

vs Mixture-of-Agents (MoA)：MoA并行运行多个智能体后聚合输出，缺乏递归细化能力。在MATH500上RecursiveMAS(88.2%)显著优于MoA(79.8%)。

vs TextGrad：TextGrad使用文本梯度优化prompt，在GPQA-D上达62.5%但仍低于RecursiveMAS(66.2%)。TextGrad的文本介导优化难以端到端训练。

vs 文本递归MAS (Recursive-TextMAS)：这是最关键的比较。在相同MAS结构和递归预算下，RecursiveMAS在所有9个基准上均显著优于文本递归版本，验证了潜空间交互的核心价值。

4.3 vs 单模型递归 (LoopLM)

LoopLM是单模型递归基线，将同一模型重复应用多次。RecursiveMAS在MATH500上(88.2% vs 84.6%)和AIME2025上(86.7% vs 66.7%)均大幅领先，证明多智能体异构协作优于单模型深度递归——不同智能体的专业化分工带来了互补优势。

Section 5: 批判性评估

5.1 核心优势（有证据支持）

1. 显著的效率-性能帕累托改进

RecursiveMAS实现了罕见的”双赢”：在提升准确率的同时降低计算开销。具体地：

准确率：平均+8.3%
速度：1.2-2.4×加速
Token：34.6%-75.6%减少

传统MAS通常面临准确率vs效率的权衡（增加智能体数量提升性能但增加延迟），RecursiveMAS通过潜空间交互打破了这一权衡。

2. 架构通用性

在四种截然不同的协作模式（Sequential、Mixture、Distillation、Deliberation）上均有效，且兼容Qwen、Llama、Gemma、Mistral等多个模型家族。这种通用性表明RecursiveLink的设计抓住了多智能体协作的本质需求，而非针对特定场景的过拟合。

3. 可解释的训练动力学

论文提供的理论分析（运行时复杂度、梯度稳定性）不仅是事后解释，更指导了架构设计。这种”理论驱动工程”的方法论保证了系统的可靠性。

5.2 局限性与失败模式

1. 基础模型能力天花板

RecursiveMAS不更新智能体本身的参数，仅优化连接模块。这意味着：

如果基础模型在某类问题上表现极差，RecursiveMAS难以根本性改进
无法创造基础模型不具备的新能力，只能更好地协调现有能力

2. 潜空间可解释性挑战

相比文本输出可直接阅读和分析，潜空间表示对人类不透明。当系统出错时：

难以定位是哪个智能体/哪一轮递归出了问题
调试困难，需要依赖额外的可视化工具
在安全关键场景（医疗、法律）的可审计性存疑

3. 跨模型对齐的信息损失

Outer Link的线性投影 $W_3$ 在不同hidden dimension间映射时可能丢失信息。实验中发现：

差距过大的模型(d_h差异>2048)协作效果下降
某些语义复杂的概念在跨模型传递时产生歧义

4. 训练数据需求

Outer Loop需要系统级端到端训练数据，而这类数据的构建成本高昂。论文使用了s1K、m1k、OpenCodeReasoning等多个高质量数据集，对实际部署者构成门槛。

5.3 适用性决策框架

应该使用RecursiveMAS的场景：

已有多个不同能力的LLM需要协同工作
推理延迟敏感但可接受多轮递归（如离线分析、批处理）
拥有或能够构建跨领域训练数据
团队具备MAS架构设计和调优能力

不适合使用RecursiveMAS的场景：

单一领域任务，已有专门优化的SOTA模型
实时交互应用（延迟要求<100ms）
资源受限，无法承担多模型部署成本
需要强可解释性和可审计性的场景（金融风控、医疗诊断）

Section 6: 前瞻性分析

6.1 技术演进趋势

1. 潜空间交互将成为MAS标配

RecursiveMAS验证了潜空间交互相对于文本交互的压倒性优势。预计未来1-2年内，主流MAS框架（如AutoGen、LangChain、CrewAI）将集成类似RecursiveLink的潜状态传递机制，或支持混合模式（文本+潜空间）。

2. 递归深度与模型规模的再平衡

论文揭示的训练-推理联合scaling规律可能改变模型设计哲学：与其追求更大的单模型，不如构建中等规模但支持深度递归的智能体系统。这种”广度优先”vs”深度优先”的权衡将成为架构决策的关键考量。

3. 异构智能体的标准化接口

RecursiveLink实质定义了异构模型间的通信协议。未来可能出现标准化的”潜空间API”，使不同厂商、不同架构的模型能够即插即用式协作，打破当前LLM生态的封闭性。

6.2 未解决的挑战与研究机会

1. 动态智能体选择

当前RecursiveMAS的协作模式是固定的（Sequential、Mixture等）。如何根据输入问题动态决定调用哪些智能体、以什么顺序、递归多少轮，是极具价值的研究方向。这需要结合强化学习或神经架构搜索(NAS)。

2. 潜空间的可视化与调试工具

潜空间的不透明性是制约RecursiveMAS应用的主要障碍。开发有效的潜状态可视化方法、异常检测工具、以及”潜空间可解释性”技术，将显著提升系统的实用性和可信度。

3. 与Test-Time Scaling的结合

OpenAI的o1和o3模型展示了test-time计算扩展（更长的推理链）的威力。RecursiveMAS的递归机制与test-time scaling是正交的——前者通过多智能体协作扩展能力，后者通过延长思考时间提升质量。两者的结合可能产生协同效应。

4. 联邦学习与隐私保护

RecursiveMAS的模块化设计天然适合联邦学习场景：不同组织可以贡献自己的专用智能体，通过RecursiveLink协作而无需暴露原始模型参数或训练数据。这在医疗、金融等隐私敏感领域有巨大应用潜力。

6.3 战略意义与产业影响

RecursiveMAS代表了从”更大模型”向”更好协作”的范式转变。这一转变的战略影响包括：

1. 降低算力门槛

相比训练一个万亿参数模型，训练多个十亿参数模型并优化其协作，可能以更少的算力实现 comparable 甚至更好的性能。这对资源有限的学术机构和中型企业是重大利好。

2. 促进模型生态多样性

当单一超大模型成为绝对标准时，模型生态趋于垄断。RecursiveMAS的异构协作机制鼓励专业化模型的开发（数学专家、代码专家、医学专家等），促进AI生态的多样性和韧性。

3. 重新定义MLOps

MAS的部署和运维比单模型复杂得多，涉及智能体编排、负载均衡、故障恢复等新挑战。RecursiveMAS的普及将催生新的MLOps工具和最佳实践，形成新的技术栈和产业链。

Conclusion

RecursiveMAS是多智能体系统领域的重要里程碑，它首次系统性地将递归计算扩展到多智能体协作场景，并通过轻量级的RecursiveLink架构实现了效率与性能的双重突破。其核心价值不仅在于8.3%的准确率提升和2.4倍的加速，更在于揭示了潜空间交互作为MAS基础设施的必然性。

然而，这项技术并非银弹。其不更新基础模型参数的保守设计、潜空间的可解释性挑战、以及系统级训练数据的高昂成本，都决定了它更适合作为现有LLM能力的”增强层”而非”替代方案”。实践者应当根据自身场景的资源约束、延迟要求、可解释性需求，审慎评估是否采用这一技术。

展望未来，RecursiveMAS开辟的研究方向——异构智能体协作协议、潜空间标准化接口、训练与推理的联合优化——将持续影响MAS架构的演进。随着这些技术的成熟，我们可能正在见证从”单一大模型”到”智能体网络”的历史性转变，而RecursiveMAS正是这一转变的先声。

参考链接

Hugging Face Papers: https://huggingface.co/papers/2604.25917
arXiv Abstract: https://arxiv.org/abs/2604.25917
项目主页: https://recursivemas.github.io
OpenReview论坛讨论: https://openreview.net/forum?id=recursion-mas

引用文献

Zou, J., et al. (2026). Recursive Multi-Agent Systems. arXiv preprint arXiv:2604.25917.
Zhang, S., et al. (2025a). Looped Transformers for Length Generalization. ICML 2025.
Gu, X., et al. (2025). Agent Workflow Memory. ICLR 2025.
Ye, J., et al. (2025b). Multi-Agent Collaboration in Language Models. NeurIPS 2025.
Zhu, Y., et al. (2025). LoopLM: Iterative Latent Refinement for Language Models. ACL 2025.
Wang, Z., et al. (2025b). Mixture-of-Agents for LLM Reasoning. arXiv:2502.00000.
Motwani, S., et al. (2024). Fine-tuning LLM Agents. EMNLP 2024.
Shojaee, P., et al. (2025). LLM Reasoning Limitations. ICLR 2025.

本文档由硅基写手自动生成于 2026-04-30。如需最新信息，请访问论文官方页面。