Logo
热心市民王先生

RL 训练 Agentic 模型:Kimi、Cursor、Chroma 三家公司的技术解析

技术研究 强化学习 Agentic AI

深入分析 Moonshot AI、Cursor 和 Chroma 三家公司如何使用强化学习训练 agentic 模型,包括 PARL、Real-time RL、CISPO 等核心方法及关键概念详解。

执行摘要

本文深入分析了 Moonshot AI (Kimi K2.5)、Cursor (Composer 2) 和 Chroma (Context-1) 三家公司的技术报告,揭示了他们如何使用强化学习(Reinforcement Learning, RL)训练 agentic 模型的核心方法论。研究表明,尽管三家公司面向不同应用场景,但他们共享一套相似的训练范式:从强基座模型出发、在生产环境中训练、使用 outcome-based rewards 配合 Generative Reward Models、以及异步大规模 rollout

每家公司的独特创新值得关注:Kimi 提出了 PARL (Parallel-Agent Reinforcement Learning) 框架,让模型自主学会任务并行化;Cursor 实现了 Real-time RL 闭环,从真实生产流量中持续学习;Chroma 则专注于 上下文自编辑,教会模型主动管理检索上下文。

本文不仅剖析了三家公司的具体实现,还对涉及的核心概念进行了深入解释,包括 Credit Assignment Problem、Outcome-based vs Process Rewards、Reward Hacking 等关键技术点。

研究模块索引

模块文件内容概要
背景与目标01-context-and-goals.mdAgentic 模型与 RL 训练的基本概念、问题陈述
Kimi PARL02-kimi-parl.mdAgent Swarm、并行强化学习、Credit Assignment
Cursor Real-time RL03-cursor-realtime-rl.mdSelf-summarization、生产环境训练、实时 RL 循环
Chroma Context-104-chroma-context-edit.md上下文自编辑、CISPO、F-beta 奖励设计
对比分析05-comparative-analysis.md三家方案对比、共同模式、关键差异
关键概念详解06-key-concepts-explained.mdCredit Assignment、GRM、Reward Hacking 等概念深入解释

核心发现

1. 共同的 RL 方法论

三家公司不约而同地采用了相似的训练框架:

flowchart TD
    A[强基座模型] --> B[生产环境训练]
    B --> C[Outcome-based Rewards]
    C --> D[Generative Reward Models]
    D --> E[异步大规模 Rollout]
    E --> F[持续迭代优化]

2. 各自的独特创新

公司核心创新解决的问题
KimiAgent Swarm + PARL任务并行化、Latency 优化
CursorReal-time RL + Self-summarization长会话处理、生产反馈闭环
ChromaSelf-editing Context + CISPO上下文管理、检索效率

3. 关键性能指标

  • Kimi K2.5: BrowseComp 准确率 78.4%(单代理 60.6%),延迟降低 4.5x
  • Cursor Composer 2: CursorBench 任务平均 181 行代码变更(SWE-bench 仅 7-10 行)
  • Chroma Context-1: 20B 参数模型达到 frontier-scale 检索性能,速度提升 10x

技术概念速查

本文涉及的关键概念及其在文中的位置:

概念解释详细位置
PARLParallel-Agent RL,并行代理强化学习02-kimi-parl.md
Credit Assignment信用分配问题,如何归因成功/失败06-key-concepts-explained.md
Critical Steps关键路径步数,衡量并行效率02-kimi-parl.md
Self-summarization自总结机制,处理长上下文03-cursor-realtime-rl.md
Real-time RL实时强化学习,从生产流量训练03-cursor-realtime-rl.md
CISPOClipped Importance-Sampled Policy Optimization04-chroma-context-edit.md
GRMGenerative Reward Model,生成式奖励模型06-key-concepts-explained.md
Reward Hacking奖励黑客,利用奖励函数漏洞06-key-concepts-explained.md

参考资料

  1. Kimi K2.5 Technical Report - Moonshot AI 官方技术报告
  2. Cursor Composer 2 Blog Post - Cursor 官方博客
  3. Chroma Context-1 Paper - Chroma 研究论文
  4. GRPO Paper: Group Relative Policy Optimization - 策略梯度算法基础
  5. The Alignment Problem in RLHF - RLHF 对齐问题研究

研究日期: 2026-03-29
基于 Philipp Schmid 的技术分析文章
原文链接: https://x.com/_philschmid/status/2037924497563505058