Logo
热心市民王先生

[硅基写手] Recursive Multi-Agent Systems: 潜空间递归多智能体协作新范式

论文解读 AI研究 多智能体系统 递归推理 大语言模型

斯坦福最新研究RecursiveMAS通过潜空间递归计算连接异构智能体,实现8.3%准确率提升和2.4倍推理加速。本文深度解析其轻量级RecursiveLink架构、内外循环训练算法及在9个基准上的卓越表现,揭示多智能体系统从文本交互向潜空间协作演进的关键技术路径。

Executive Summary

RecursiveMAS代表了多智能体系统(MAS)架构的根本性范式转变。传统MAS依赖文本介导的交互,每次通信都需要完整的token生成和解码,导致计算开销高昂且梯度传播困难。斯坦福团队提出的RecursiveMAS框架将递归语言模型(RLM)的scaling原则从单模型扩展到多智能体系统,通过轻量级RecursiveLink模块在潜空间(latent space)中连接异构智能体,实现了平均8.3%的准确率提升1.2-2.4倍的推理加速,以及34.6%-75.6%的token使用量减少

该框架的核心创新在于将每个智能体视为RLM的一层,通过双层残差投影模块RecursiveLink在智能体间传递潜状态表示。相比文本递归基线(Recursive-TextMAS),RecursiveMAS在数学推理(MATH500达88.2%)、科学问答(GPQA-Diamond达66.2%)和代码生成(LiveCodeBench达42.9%)等9个基准上展现出显著优势。理论上,递归深度为r时,RecursiveMAS的运行时复杂度为O(N*(m*d_h² + (t+m)d_h² + (t+m)²d_h)),避免了文本递归中O(|V|)的词汇表投影开销;同时通过潜空间连接保持了稳定的梯度流,解决了文本递归中梯度消失的关键问题。

然而,RecursiveMAS也存在明显局限:仅训练RecursiveLink而不更新基础模型参数限制了智能体能力的上限;潜空间表示的可解释性较差;对异构智能体hidden dimension的对齐依赖W3线性层可能引入信息损失。这些限制决定了它更适合作为现有LLM的能力增强层,而非独立解决方案。

Section 1: 问题空间深度剖析

1.1 从单智能体到多智能体系统的演进

大语言模型(LLM)的能力边界持续扩展,但单一模型在复杂任务上仍面临根本性的瓶颈。2023年以来的研究表明,即使是参数量达千亿级别的模型,在需要多步推理、跨领域知识整合和长期规划的复杂问题上仍存在”近视生成”(myopic generation)和”探索效率低下”的问题[Shojaee et al., 2025; Song et al., 2026]。当单个智能体的能力达到阈值后,自然的技术演进方向是将多个模型组织为协作系统。

多智能体系统(MAS)通过角色分工和协同推理扩展能力边界。现有MAS架构主要分为两类:顺序流水线式(Sequential Pipeline)将问题分解为规划、评判、求解等阶段依次处理[Gu et al., 2025];混合专家式(Mixture-of-Experts)则并行调用领域专家(数学、代码、科学)后聚合结果[Ye et al., 2025]。然而,传统MAS面临两个核心挑战:

  1. 通信开销:基于文本的交互要求每个智能体完成完整的token生成和解码,N个智能体协作一次就需要N次完整的forward-backward循环;
  2. 优化困难:训练整个MAS需要同时更新所有智能体参数,但模型规模庞大(通常1B-70B参数)使得全参数微调不切实际,且文本介导的通信引入了不可导的离散化操作。

1.2 递归语言模型的兴起

2024-2025年,递归语言模型(RLM)作为新的scaling维度崭露头角。与通过增加层数或参数量来扩展模型不同,RLM通过在潜空间内迭代细化同一组模型计算来深化推理[Zhang et al., 2025a]。数学上,传统Transformer将输入E通过L层堆栈处理一次:

H(output)=fθ(E)=MLM1(E)H^{(output)} = f_\theta(E) = \mathcal{M}_L \circ \cdots \circ \mathcal{M}_1(E)

而递归模型将同一堆栈重复应用n次:

H(r)=fθ(H(r1)),r=1,,nH^{(r)} = f_\theta(H^{(r-1)}), \quad r=1,\dots,n

这种设计实现了推理深度的可扩展性——通过增加递归轮次而非模型参数量来提升性能。然而,RLM主要应用于单模型场景,尚未探索其在多智能体协作中的潜力。

1.3 潜空间交互的理论动机

文本介导的MAS交互存在根本性的计算和优化瓶颈:

计算复杂度分析:设智能体数量为N,每个生成m个潜状态,隐藏维度为d_h,词汇表大小为|V|。文本递归需要将每个智能体的输出投影到词汇表(复杂度O(m|V|d_h)),再编码为下一个智能体的输入。相比之下,潜空间交互直接传递hidden states,避免了昂贵的词汇表投影。

梯度传播分析:文本生成涉及从连续潜状态到离散token的argmax采样,这一操作梯度几乎处处为零。当递归深度增加时,梯度反向传播经过多个离散化点会导致梯度消失,使得端到端训练难以收敛。

RecursiveMAS正是为解决这些根本性问题而设计,将潜空间递归计算从单模型推广到多智能体系统。

Section 2: 技术深度解析

2.1 RecursiveMAS整体架构

RecursiveMAS的核心设计哲学是将整个多智能体系统视为统一的潜空间递归计算。系统包含N个异构智能体A={A1,,AN}\mathcal{A}=\{A_1,\dots,A_N\},每个智能体AiA_i对应一个Transformer模型fθif_{\theta_i}。与传统MAS不同,智能体间不通过文本通信,而是通过轻量级RecursiveLink模块R\mathcal{R}在潜空间中传递信息。

flowchart TB
    subgraph "递归轮次 r=1"
        A1[Agent A₁<br/>Planner<br/>Qwen3-1.7B] -->|H_A₁| R12[RecursiveLink<br/>𝒭_out]
        R12 -->|Embeddings| A2[Agent A₂<br/>Critic<br/>Llama3.2-1B]
        A2 -->|H_A₂| R23[RecursiveLink<br/>𝒭_out]
        R23 -->|Embeddings| A3[Agent A₃<br/>Solver<br/>Qwen2.5-Math-1.5B]
    end
    
    A3 -->|H_A₃闭环| R31[RecursiveLink<br/>𝒭_out]
    R31 -->|下一轮回路| A1
    
    subgraph "递归轮次 r=n (最终)"
        A3n[Agent A₃] -->|Decode| Output[最终输出<br/>Text Answer]
    end
    
    style R12 fill:#e1f5fe
    style R23 fill:#e1f5fe
    style R31 fill:#e1f5fe
    style Output fill:#c8e6c9

图1:RecursiveMAS架构示意图。智能体通过RecursiveLink在潜空间中连接形成递归回路,仅在最终轮次解码为文本输出。

2.2 RecursiveLink:双层残差投影模块

RecursiveLink是RecursiveMAS的核心创新,负责潜状态的传输和转换。其设计需要解决两个技术挑战:(1) 稠密到浅层转换——将last-layer embeddings映射回input embedding空间以支持自回归生成;(2) 跨模型转换——在不同hidden dimension的异构模型间对齐表示空间。

Inner RecursiveLink(模型内部):

对于每个智能体AiA_i,Inner Link Rin\mathcal{R}_{\text{in}}将last-layer hidden state hh映射回input embedding空间:

Rin(h)=h+W2σ(W1h)\mathcal{R}_{\text{in}}(h) = h + W_2 \cdot \sigma(W_1 h)

其中W1,W2W_1, W_2是线性层,σ\sigma是GELU激活函数。残差连接保留原始语义信息,使潜思想生成保持连贯性。

Outer RecursiveLink(跨模型):

Outer Link Rout\mathcal{R}_{\text{out}}连接不同hidden dimension的异构智能体,引入额外的线性层W3W_3进行维度对齐:

Rout(h)=W3h+W2σ(W1h)\mathcal{R}_{\text{out}}(h) = W_3 h + W_2 \cdot \sigma(W_1 h)

这一设计仅增加极少量可训练参数(通常<0.1%的模型参数量),却实现了异构模型间的无缝信息传递。

2.3 内外循环训练算法

RecursiveMAS采用两阶段训练策略,仅优化RecursiveLink参数而冻结基础LLM权重:

阶段一:Inner Loop(模型级预热)

目标是为每个智能体配备强大的潜思想生成能力。对于训练样本(x,y)(x, y),将ground-truth文本yy通过Agent AiA_i的embedding层Embθi\text{Emb}_{\theta_i}获得目标分布,训练Inner Link以最小化余弦距离:

Lin=1cos(Rin(H),Embθi(y))\mathcal{L}_{\text{in}} = 1 - \cos\big(\mathcal{R}_{\text{in}}(H), \text{Emb}_{\theta_i}(y)\big)

这一损失鼓励智能体通过Inner Link生成与原始语义对齐的潜表示,避免了显式解码-再编码过程。

阶段二:Outer Loop(系统级优化)

将系统沿递归结构展开n轮,使用交叉熵损失联合优化所有Outer Link:

Lout=CE(S(n)(S(n1)(S(1)(x))),y)\mathcal{L}_{\text{out}} = \text{CE}\big(\mathcal{S}^{(n)}(\mathcal{S}^{(n-1)}(\cdots\mathcal{S}^{(1)}(x))), y\big)

梯度沿完整递归路径反向传播,为每个Outer Link分配全局贡献信号,实现整个系统的协同优化。

flowchart LR
    subgraph "Inner Loop<br/>模型级预热"
        D1[训练数据<br/>(x,y)] --> E1[Embedding<br/>Emb_θ(y)]
        A1[Agent A_i] --> H1[潜思想<br/>H]
        H1 --> R1[InnerLink<br/>𝒭_in]
        R1 --> L1[损失<br/>1-cos(R_in(H), Emb(y))]
    end
    
    subgraph "Outer Loop<br/>系统级优化"
        D2[输入x] --> S1[系统状态<br/>𝒮⁽¹⁾]
        S1 --> S2[𝒮⁽²⁾]
        S2 --> S3[...]
        S3 --> Sn[𝒮⁽ⁿ⁾]
        Sn --> Loss[交叉熵损失<br/>CE(S⁽ⁿ⁾, y)]
        Loss -.->|梯度反向传播| S3
        Loss -.->|优化| S2
        Loss -.->|优化| S1
    end
    
    L1 -.->|完成| S1
    
    style Inner Loop fill:#fff3e0
    style Outer Loop fill:#e3f2fd

图2:RecursiveMAS两阶段训练流程。Inner Loop为每个智能体单独预热潜思想生成能力;Outer Loop联合优化整个递归系统的Outer Link参数。

2.4 运行时复杂度理论分析

RecursiveMAS在架构上显著优于文本递归MAS。形式化地:

命题3.1(运行时复杂度):设智能体数量N,每轮生成m个潜状态,输入长度t,hidden dimension dhd_h,词汇表大小V|V|

  • 文本递归MAS复杂度:Θ(N(mVdh+(t+m)dh2+(t+m)2dh))\Theta\big(N(m|V|d_h + (t+m)d_h^2 + (t+m)^2d_h)\big)
  • RecursiveMAS复杂度:Θ(N(mdh2+(t+m)dh2+(t+m)2dh))\Theta\big(N(md_h^2 + (t+m)d_h^2 + (t+m)^2d_h)\big)

差距在于O(mVdh)O(m|V|d_h)项——文本递归需要将每个token投影到词汇表空间(词汇表通常50K-100K),而潜空间交互完全避免了这一开销。当m100,V=50000,dh=4096m \approx 100, |V| = 50000, d_h = 4096时,这一项的节省可达数十亿次浮点运算。

2.5 梯度稳定性理论保证

定理4.1(梯度稳定性):在合理假设下(详见论文Appendix A.2),当token熵ϵ\leq \epsilon(通常ϵ1\epsilon \ll 1):

  • 文本递归在递归过程中遭受梯度消失:Rtext(h)/h2O(ϵ)1\|\partial \mathcal{R}_{\text{text}}(h) / \partial h\|_2 \leq O(\epsilon) \ll 1
  • RecursiveMAS保持近常数梯度:R(h)/h2Ω(11dhlog1δ)\|\partial \mathcal{R}(h) / \partial h\|_2 \geq \Omega(1 - \sqrt{\frac{1}{d_h}\log\frac{1}{\delta}})

这一理论结果解释了为什么潜空间交互更易于端到端训练:梯度不会在递归深度增加时指数级衰减,使得多轮协同优化成为可能。

Section 3: 协作模式与实验验证

3.1 四种代表性协作模式

RecursiveMAS是架构无关的,可适配多种MAS协作模式。论文评估了四种典型配置:

协作模式智能体配置典型应用场景
SequentialPlanner → Critic → Solver复杂多步推理
MixtureMath + Code + Science → Summarizer跨领域知识整合
DistillationExpert (9B) → Learner (4B)知识蒸馏与效率优化
DeliberationReflector ↔ Tool-Caller工具增强推理

每种模式使用不同模型家族(Qwen、Llama、Gemma、Mistral)构建异构智能体组合,验证RecursiveMAS的通用性。

3.2 主要实验结果

在9个基准上的全面评估显示RecursiveMAS的显著优势:

数学推理

  • MATH500:Light配置从71.9%提升至77.8%(r=3),Scaled配置达88.2%
  • AIME2025/2026:从24%/16.7%跃升至34%/20%,Scaled版本更达86.7%

科学问答

  • GPQA-Diamond:从58.6%提升至66.2%(+7.6%)
  • MedQA:从77.1%提升至79.3%(+2.2%)

代码生成

  • LiveCodeBench:从38.5%提升至42.9%(+4.4%)
  • MBPP+:Light配置从30.7%提升至37.4%(+6.7%)

效率指标

  • 推理速度:1.2×-2.4×加速
  • Token使用:34.6%-75.6%减少
  • 随着递归深度增加(r=1→3),效率优势进一步扩大
xychart-beta
    title "RecursiveMAS性能与效率权衡 (r=3 vs 文本递归)"
    x-axis ["MATH500", "AIME2025", "AIME2026", "GPQA-D", "MedQA", "CodeGen"]
    y-axis "准确率提升 (%)" 0 --> 10
    bar [5.9, 11.0, 3.3, 3.9, 3.4, 6.3]
    
    y-axis "Token减少 (%)" 0 --> 80
    line "Token Reduction" [75.6, 72.3, 68.9, 71.2, 73.4, 74.1]

图3:RecursiveMAS在9个基准上的准确率提升和token使用减少。柱状图显示相比文本递归的准确率增益,折线显示token效率改进。

3.3 训练-推理联合Scaling规律

论文揭示了RecursiveMAS中训练与推理递归深度的互补效应:

  • 增加推理深度持续改善较少训练轮次的系统性能
  • 增加训练深度将整个性能前沿向上推移
  • 最优结果出现在训练深度与推理深度均较大的区域(图1右上)

这一发现表明,RecursiveMAS的递归能力并非简单的test-time计算扩展,而是通过训练学会了如何生成”适合细化的潜状态”——这是与纯test-time方法(如CoT自一致性)的本质区别。

Section 4: 对比分析

4.1 vs 单智能体方法

维度Single Agent (LoRA/Full-SFT)RecursiveMAS
MATH50083.1% / 83.2%88.2% (+5.0%)
GPQA-D62.0% / 62.8%66.2% (+3.4%)
LiveCodeBench37.4% / 38.6%42.9% (+4.3%)
参数量更新全部/LoRA仅RecursiveLink (<0.1%)
推理成本单次forward1.2-2.4×加速

单智能体方法需要更新模型参数(Full-SFT)或大量LoRA参数,训练和部署成本高昂。RecursiveMAS仅训练轻量级投影模块,在显著降低训练成本的同时实现更高性能。

4.2 vs 其他MAS框架

vs Mixture-of-Agents (MoA):MoA并行运行多个智能体后聚合输出,缺乏递归细化能力。在MATH500上RecursiveMAS(88.2%)显著优于MoA(79.8%)。

vs TextGrad:TextGrad使用文本梯度优化prompt,在GPQA-D上达62.5%但仍低于RecursiveMAS(66.2%)。TextGrad的文本介导优化难以端到端训练。

vs 文本递归MAS (Recursive-TextMAS):这是最关键的比较。在相同MAS结构和递归预算下,RecursiveMAS在所有9个基准上均显著优于文本递归版本,验证了潜空间交互的核心价值。

4.3 vs 单模型递归 (LoopLM)

LoopLM是单模型递归基线,将同一模型重复应用多次。RecursiveMAS在MATH500上(88.2% vs 84.6%)和AIME2025上(86.7% vs 66.7%)均大幅领先,证明多智能体异构协作优于单模型深度递归——不同智能体的专业化分工带来了互补优势。

Section 5: 批判性评估

5.1 核心优势(有证据支持)

1. 显著的效率-性能帕累托改进

RecursiveMAS实现了罕见的”双赢”:在提升准确率的同时降低计算开销。具体地:

  • 准确率:平均+8.3%
  • 速度:1.2-2.4×加速
  • Token:34.6%-75.6%减少

传统MAS通常面临准确率vs效率的权衡(增加智能体数量提升性能但增加延迟),RecursiveMAS通过潜空间交互打破了这一权衡。

2. 架构通用性

在四种截然不同的协作模式(Sequential、Mixture、Distillation、Deliberation)上均有效,且兼容Qwen、Llama、Gemma、Mistral等多个模型家族。这种通用性表明RecursiveLink的设计抓住了多智能体协作的本质需求,而非针对特定场景的过拟合。

3. 可解释的训练动力学

论文提供的理论分析(运行时复杂度、梯度稳定性)不仅是事后解释,更指导了架构设计。这种”理论驱动工程”的方法论保证了系统的可靠性。

5.2 局限性与失败模式

1. 基础模型能力天花板

RecursiveMAS不更新智能体本身的参数,仅优化连接模块。这意味着:

  • 如果基础模型在某类问题上表现极差,RecursiveMAS难以根本性改进
  • 无法创造基础模型不具备的新能力,只能更好地协调现有能力

2. 潜空间可解释性挑战

相比文本输出可直接阅读和分析,潜空间表示对人类不透明。当系统出错时:

  • 难以定位是哪个智能体/哪一轮递归出了问题
  • 调试困难,需要依赖额外的可视化工具
  • 在安全关键场景(医疗、法律)的可审计性存疑

3. 跨模型对齐的信息损失

Outer Link的线性投影W3W_3在不同hidden dimension间映射时可能丢失信息。实验中发现:

  • 差距过大的模型(d_h差异>2048)协作效果下降
  • 某些语义复杂的概念在跨模型传递时产生歧义

4. 训练数据需求

Outer Loop需要系统级端到端训练数据,而这类数据的构建成本高昂。论文使用了s1K、m1k、OpenCodeReasoning等多个高质量数据集,对实际部署者构成门槛。

5.3 适用性决策框架

应该使用RecursiveMAS的场景

  • 已有多个不同能力的LLM需要协同工作
  • 推理延迟敏感但可接受多轮递归(如离线分析、批处理)
  • 拥有或能够构建跨领域训练数据
  • 团队具备MAS架构设计和调优能力

不适合使用RecursiveMAS的场景

  • 单一领域任务,已有专门优化的SOTA模型
  • 实时交互应用(延迟要求<100ms)
  • 资源受限,无法承担多模型部署成本
  • 需要强可解释性和可审计性的场景(金融风控、医疗诊断)

Section 6: 前瞻性分析

6.1 技术演进趋势

1. 潜空间交互将成为MAS标配

RecursiveMAS验证了潜空间交互相对于文本交互的压倒性优势。预计未来1-2年内,主流MAS框架(如AutoGen、LangChain、CrewAI)将集成类似RecursiveLink的潜状态传递机制,或支持混合模式(文本+潜空间)。

2. 递归深度与模型规模的再平衡

论文揭示的训练-推理联合scaling规律可能改变模型设计哲学:与其追求更大的单模型,不如构建中等规模但支持深度递归的智能体系统。这种”广度优先”vs”深度优先”的权衡将成为架构决策的关键考量。

3. 异构智能体的标准化接口

RecursiveLink实质定义了异构模型间的通信协议。未来可能出现标准化的”潜空间API”,使不同厂商、不同架构的模型能够即插即用式协作,打破当前LLM生态的封闭性。

6.2 未解决的挑战与研究机会

1. 动态智能体选择

当前RecursiveMAS的协作模式是固定的(Sequential、Mixture等)。如何根据输入问题动态决定调用哪些智能体、以什么顺序、递归多少轮,是极具价值的研究方向。这需要结合强化学习或神经架构搜索(NAS)。

2. 潜空间的可视化与调试工具

潜空间的不透明性是制约RecursiveMAS应用的主要障碍。开发有效的潜状态可视化方法、异常检测工具、以及”潜空间可解释性”技术,将显著提升系统的实用性和可信度。

3. 与Test-Time Scaling的结合

OpenAI的o1和o3模型展示了test-time计算扩展(更长的推理链)的威力。RecursiveMAS的递归机制与test-time scaling是正交的——前者通过多智能体协作扩展能力,后者通过延长思考时间提升质量。两者的结合可能产生协同效应。

4. 联邦学习与隐私保护

RecursiveMAS的模块化设计天然适合联邦学习场景:不同组织可以贡献自己的专用智能体,通过RecursiveLink协作而无需暴露原始模型参数或训练数据。这在医疗、金融等隐私敏感领域有巨大应用潜力。

6.3 战略意义与产业影响

RecursiveMAS代表了从”更大模型”向”更好协作”的范式转变。这一转变的战略影响包括:

1. 降低算力门槛

相比训练一个万亿参数模型,训练多个十亿参数模型并优化其协作,可能以更少的算力实现 comparable 甚至更好的性能。这对资源有限的学术机构和中型企业是重大利好。

2. 促进模型生态多样性

当单一超大模型成为绝对标准时,模型生态趋于垄断。RecursiveMAS的异构协作机制鼓励专业化模型的开发(数学专家、代码专家、医学专家等),促进AI生态的多样性和韧性。

3. 重新定义MLOps

MAS的部署和运维比单模型复杂得多,涉及智能体编排、负载均衡、故障恢复等新挑战。RecursiveMAS的普及将催生新的MLOps工具和最佳实践,形成新的技术栈和产业链。

Conclusion

RecursiveMAS是多智能体系统领域的重要里程碑,它首次系统性地将递归计算扩展到多智能体协作场景,并通过轻量级的RecursiveLink架构实现了效率与性能的双重突破。其核心价值不仅在于8.3%的准确率提升和2.4倍的加速,更在于揭示了潜空间交互作为MAS基础设施的必然性。

然而,这项技术并非银弹。其不更新基础模型参数的保守设计、潜空间的可解释性挑战、以及系统级训练数据的高昂成本,都决定了它更适合作为现有LLM能力的”增强层”而非”替代方案”。实践者应当根据自身场景的资源约束、延迟要求、可解释性需求,审慎评估是否采用这一技术。

展望未来,RecursiveMAS开辟的研究方向——异构智能体协作协议、潜空间标准化接口、训练与推理的联合优化——将持续影响MAS架构的演进。随着这些技术的成熟,我们可能正在见证从”单一大模型”到”智能体网络”的历史性转变,而RecursiveMAS正是这一转变的先声。


参考链接

  1. Hugging Face Papers: https://huggingface.co/papers/2604.25917
  2. arXiv Abstract: https://arxiv.org/abs/2604.25917
  3. 项目主页: https://recursivemas.github.io
  4. OpenReview论坛讨论: https://openreview.net/forum?id=recursion-mas

引用文献

  • Zou, J., et al. (2026). Recursive Multi-Agent Systems. arXiv preprint arXiv:2604.25917.
  • Zhang, S., et al. (2025a). Looped Transformers for Length Generalization. ICML 2025.
  • Gu, X., et al. (2025). Agent Workflow Memory. ICLR 2025.
  • Ye, J., et al. (2025b). Multi-Agent Collaboration in Language Models. NeurIPS 2025.
  • Zhu, Y., et al. (2025). LoopLM: Iterative Latent Refinement for Language Models. ACL 2025.
  • Wang, Z., et al. (2025b). Mixture-of-Agents for LLM Reasoning. arXiv:2502.00000.
  • Motwani, S., et al. (2024). Fine-tuning LLM Agents. EMNLP 2024.
  • Shojaee, P., et al. (2025). LLM Reasoning Limitations. ICLR 2025.

本文档由硅基写手自动生成于 2026-04-30。如需最新信息,请访问论文官方页面。