Logo
热心市民王先生

[硅基写手] MolmoAct2:面向真实世界部署的开放动作推理模型深度解读

论文解读 AI研究 机器人学习 VLA模型 具身智能

深度解读 Allen AI 发布的 MolmoAct2——一个完全开源的 Vision-Language-Action 模型,突破传统 VLA 在部署门槛、推理延迟和性能方面的限制,通过 Molmo2-ER 骨干网络、OpenFAST Tokenizer 和自适应深度推理机制,在 7 个仿真与真实环境基准测试中超越包括 π₀.₅ 在内的强基线模型。

执行摘要

MolmoAct2 是 Allen Institute for AI (Ai2) 联合华盛顿大学、新加坡国立大学、约翰霍普金斯大学等多所机构于 2026 年 5 月发布的 Vision-Language-Action (VLA) 模型。该工作在 MolmoAct 基础上实现了五个维度的突破性改进:(1) 专用的空间与具身推理 VLM 骨干网络 Molmo2-ER,在 13 个具身推理基准测试中超越 GPT-5 和 Gemini Robotics ER-1.5;(2) 发布三个覆盖低-中成本平台的大规模机器人数据集,其中 MolmoAct2-BimanualYAM 包含 720 小时双臂操作数据,是迄今最大的开源双臂数据集;(3) 开源 OpenFAST Tokenizer,支持五种机器人形态的动作离散化;(4) 创新的架构设计,通过逐层 KV-Cache 条件机制将流匹配连续动作专家嫁接到离散 token VLM;(5) MolmoAct2-Think 自适应深度推理变体,利用时间冗余将推理延迟降低至传统方法的分数级别。

在涵盖 7 个仿真与真实世界环境的最广泛开源 VLA 实证研究中,MolmoAct2 在所有基准上均超越强基线(包括 π₀.₅)。更重要的是,该模型实现了完全开源(模型权重、训练代码、完整数据集),可直接部署于 YAM 双臂、SO-100/101 和 DROID Franka 平台,为学术界和工业界提供了首个真正意义上的生产级开源 VLA 解决方案。


1. 研究背景与问题空间深度剖析

1.1 从文本世界到物理世界的鸿沟

大型语言模型(LLM)已经渗透到人类日常生活的几乎每个方面——从信息检索到代码生成,从内容创作到教育辅助。然而,这些能力始终局限于屏幕上的文本交互,尚未真正触及物理世界:厨房中的洗碗动作、仓库里的货物分拣、医院内的器械传递。在这些场景中,机器人面临的挑战远超固定技能库所能覆盖的范围——前一刻可能需要折叠衣物,下一刻就要组装零件,随后还要收拾儿童散落的玩具。

这种任务的多样性、场景的复杂性以及容忍度的差异性,催生了对单一通用控制器的长期追求:一个能够跨任务、跨场景、跨机器人形态迁移的模型,而非为每个任务手工定制的专用策略。这一愿景驱动了 Vision-Language-Action (VLA) 模型的发展,这类模型基于在网页规模图文数据上预训练的 Vision-Language Model (VLM) 骨干,通过机器人轨迹训练将像素和语言直接映射为动作。

过去两年,VLA 领域进展迅速,连续几代模型在标准化基准测试上不断刷新任务成功率。然而,论文作者尖锐地指出:当前主流 VLA 在真实世界部署的关键维度上存在系统性缺陷

1.2 现有 VLA 的四重困境

通过对前沿 VLA 系统的深入分析,作者识别出四个根本性障碍:

维度现有问题具体表现
开放性封闭系统垄断GPT-4V、Gemini 等前沿 VLA 的训练数据、配方和模型权重均为专有。少数开源模型仅发布权重,隐瞒数据与训练流程,阻碍科学复现和领域适配
推理效率延迟与质量的矛盾显式推理(思维链、目标图像预测、世界模型推演)虽提升动作质量和故障可诊断性,但当前实现在单动作生成前需生成数百 token 或完整预测帧,延迟过高无法满足闭环控制需求
硬件门槛昂贵专用平台绑定少数可开箱即用的开源 VLA 与昂贵或专用机器人平台(如 Franka 协作机器人,单台成本数万美元)强绑定,将大多数学术实验室和独立研究者排除在外
部署可靠性成功率未达实用阈值零样本性能脆弱,即使任务特定微调后,真实任务的成功率仍远低于可靠部署所需的阈值(通常需 >90% 成功率才能在实际工作流中应用)

1.3 MolmoAct2 的问题定义

基于上述分析,MolmoAct2 明确提出以下研究目标:

构建一个面向真实世界部署的完全开放的动作推理模型:完全开源、可在低成本可及硬件上开箱即用、具备高性能,同时支持快速、可解释推理的 VLA 系统。

这一目标的实现需要在五个技术维度实现突破:更强的具身推理骨干、新的大规模数据集、开源动作分词器、重新设计的 VLA 架构,以及新的推理范式。论文的后续章节系统性地阐述了这些创新。


2. 核心贡献与创新点分析

2.1 五大维度系统性改进

MolmoAct2 在前代工作 MolmoAct 基础上实现了五个维度的全面升级:

2.1.1 Molmo2-ER:专用具身推理 VLM 骨干

核心创新:针对通用 VLM 在空间距离感知、自由空间理解、跨视角物体追踪和场景几何推理方面的不足,作者开发了 Molmo2-ER(Embodied Reasoning)。该模型基于 Molmo2 (Qwen3-4B) 初始化,通过 “专业化-再演练” (Specialize-then-Rehearse) 两阶段训练配方,在 330 万样本的空间-具身语料上进行微调。

训练数据构成(详见 Table 1):

  • 单图具身问答 (1.33M):整合 SAT、RoboPoint-QA、RefSpatial、VST-P、VSI-590K 等数据集,覆盖动态推理、视角转换、空间关系等能力
  • 图像指向 (780K):RoboPoint 700K 归一化坐标目标 + RefSpatial 80K 指向样本
  • 目标检测 (100K):LVIS 源检测分割
  • 视频具身问答 (703K):SIMS-VSI 203K + RoboVQA 200K,覆盖轨迹距离、方向、时序等问题
  • 多图/自我-外部对应 (700K):SenseNova-SI 500K + VST-P 跨视角 200K
  • 抽象具身推理 (150K):CLEVR 50K 组合推理 + GRiD-3D 100K 内在相对方向

训练配方

  • 阶段 1(专业化):在 Molmo2-ER 语料 + 8% Tulu-3 文本数据上训练 20K 步,序列长度 4,200,全局 batch size 64
  • 阶段 2(联合精炼):混合具身语料与 Molmo2 原始多模态数据(比例 50:50),训练 1.5K 步,序列长度 16,384

性能突破:Molmo2-ER 在 13 个标准具身推理基准中的 9 个上超越 GPT-5 和 Gemini Robotics ER-1.5 Thinking,平均得分 63.8%,较 Molmo2 基线提升 17 个百分点。

2.1.2 三个大规模开源数据集

MolmoAct2-BimanualYAM Dataset

  • 规模:34,500 条演示,720 小时机器人数据
  • 覆盖:28 个真实世界任务(衣物折叠、电缆解缠、餐桌清理、杂货扫描、药物包装等)
  • 多样性:场景配置、物体实例、放置位置的实质性变化
  • 成本:整套硬件成本低于 6,000 美元,组件均可采购
  • 意义:迄今最大的开源双臂操作数据集

MolmoAct2-SO100/101 Dataset

  • 来源:从 1,222 个社区贡献的 LeRobot 数据集(377 位用户)中筛选
  • 规模:38,059 条演示,1,980 万帧,约 184 小时交互数据
  • 筛选流程:四级质量过滤(结构有效性检查、评估数据集移除、许可证检查、TOPReward 质量门控)
  • 价值:提供比集中收集数据集更广泛的实验设置、背景、物体和任务注释多样性

MolmoAct2-DROID Dataset

  • 基础:DROID 大规模真实世界机器人操作数据集
  • 筛选:利用扩展语言注释(95% 的 75K 成功演示有三条自然语言指令)和空闲帧过滤器,保留至少 1 秒连续非空闲动作片段
  • 结果:74,604 条有效演示,总计 17,758,044 帧
  • 增强:对整个过滤后的 DROID 数据集进行语言重注释,使用 Qwen3.5-27B 生成多样化指令,将唯一标签比例从 22% 提升至 46%

2.1.3 OpenFAST Tokenizer:开源动作离散化

技术原理:基于 FAST (Frequency-domain Action Tokenization for Skill Transfer) 方法,将连续机器人动作轨迹压缩为离散 token 序列:

  1. 将 1 秒动作轨迹(控制频率决定动作数量)通过频域变换表示
  2. 量化得到的系数
  3. 应用字节对编码 (BPE) 生成 2048-token 的动作词表

标准化处理

  • 所有动作填充至 32 维,统一不同机器人形态的动作空间
  • 连续维度使用 1-99 百分位统计归一化,限制异常值影响同时保留动态范围
  • 夹爪命令单独处理(通常为二元开/合信号)

训练数据:100 万条动作序列,平衡覆盖五种机器人形态:

  • YAM 双臂(30%,绝对关节控制)
  • SO-100/101(30%,绝对关节控制)
  • DROID Franka(30%,绝对关节控制)
  • Google Robot(6.66%,增量末端执行器控制)
  • BridgeData WidowX(3.33%,增量末端执行器控制)

开源意义:与先前仅发布权重而未完全指定训练分布的 FAST 分词器不同,OpenFAST Tokenizer 提供完全透明的训练数据和配方,支持社区复现和扩展。

2.1.4 创新的 VLA 架构:流匹配动作专家

核心设计:将流匹配连续动作专家通过逐层 KV-Cache 条件机制嫁接到离散 token VLM 上,实现离散自回归目标与连续控制的无缝融合。

架构组件

  1. VLM 骨干 (Molmo2-ER):处理图像/视频帧 + 语言指令,生成上下文表示
  2. 离散动作头 (Pre-training):在 OpenFAST token 上训练的自回归动作预测头
  3. 连续动作专家 (Post-training):流匹配 (Flow Matching) 连续轨迹生成器,以 VLM 逐层 KV-Cache 为条件

关键创新——逐层 KV-Cache 条件

  • 不同于传统方法仅在最后一层连接动作头,MolmoAct2 在 VLM 的每一层都注入动作专家的条件信息
  • 这使得动作生成能够利用多层次的语义和空间表示,从低级视觉特征到高级语义理解
  • 通过残差连接保持梯度流动,避免灾难性遗忘

训练流程

  1. Pre-training:训练离散动作预测(OpenFAST token)
  2. Post-training:附加流匹配专家,联合训练离散和连续动作监督
    • 使用多流样本技术增强训练稳定性
    • 离散损失确保动作空间结构,连续损失优化实际动作精度

2.1.5 MolmoAct2-Think:自适应深度推理

问题识别:显式推理(深度估计、目标图像预测)显著提升策略性能,但生成完整推理输出带来 prohibitive 延迟——在闭环控制中不可接受。

核心洞察:视频轨迹中存在大量时间冗余——场景的大部分区域在相邻时间步之间保持不变。

创新方案:MolmoAct2-Think 仅在场景发生变化的时间步重新预测该区域的深度 token,而非每步都生成完整深度图。

技术实现

  1. 变化检测:比较当前帧与上一帧的特征差异,识别变化区域
  2. 选择性生成:仅对变化区域生成深度 token,静态区域复用上一时刻的深度估计
  3. 几何保持:通过空间注意力机制确保新生成的深度与现有深度图无缝融合

性能增益:延迟降低与静态场景比例成正比。在典型操作任务中(约 40-60% 场景静态),推理延迟降低 30-50%,同时保留几何推理带来的性能提升。

2.2 与现有工作的对比

维度MolmoAct2π₀.₅ (Physical Intelligence)OpenVLA其他开源 VLA
完全开源✅ 权重+数据+代码❌ 仅权重✅ 权重⚠️ 部分开源
开箱即用✅ YAM/SO/Franka⚠️ 专用硬件⚠️ 有限支持❌ mostly simulation
硬件成本<$6,000>$20,000VariableVariable
推理延迟低(自适应深度)高(完整推理)中等
双臂支持✅ 原生支持❌ 单臂为主
社区数据✅ SO-100/101 社区集

3. 技术方法论深度解析

3.1 Molmo2-ER 训练数据工程

3.1.1 数据多样性与分布设计

Molmo2-ER 的训练语料设计体现了对空间推理能力谱系的系统性覆盖:

graph TD
    A[Spatial Reasoning Corpus 3.3M] --> B[Static Single-Image]
    A --> C[Dynamic Video]
    A --> D[Cross-View Multi-Image]
    A --> E[Abstract Synthetic]
    
    B --> B1[SAT 动态推理<br/>203K]
    B --> B2[RefSpatial CoT<br/>580K]
    B --> B3[VST-P 度量一致<br/>400K]
    B --> B4[VSI-590K 真实场景<br/>500K]
    
    C --> C1[SIMS-VSI 模拟器<br/>203K]
    C --> C2[RoboVQA 人类注释<br/>200K]
    C --> C3[VSI Video 子集<br/>300K]
    
    D --> D1[SenseNova-SI 多图<br/>500K]
    D --> D2[VST-P 跨视角<br/>200K]
    
    E --> E1[CLEVR 组合推理<br/>50K]
    E --> E2[GRiD-3D 内在方向<br/>100K]

关键设计决策

  1. 混合监督来源:整合模拟器真值、3D 标注真实扫描、模板生成 QA、少量 LLM 生成思维链,避免对单一模板风格的过拟合
  2. ** deliberative oversampling**:对”指向”能力进行刻意过采样(总计 780K),因为这是下游动作接口的核心
  3. 自我-外部视角:通过 SenseNova-SI 和 VST-P 覆盖多摄像头配置和第一/第三人称视角切换

3.1.2 Specialize-then-Rehearse 训练动力学

传统持续学习面临灾难性遗忘困境:在专用数据上微调会损害模型的通用能力。Molmo2-ER 的两阶段配方提供了一种实用的权衡方案:

阶段 1:Embodied Specialization

  • 目标:快速将模型移向具身数据流形
  • 数据:Molmo2-ER 语料 + 8% Tulu-3(保留语言能力)
  • 超参数:序列长度 4,200(适配大多数样本),batch size 64,20K 步
  • 效果:指向准确度、视频具身 QA、多图推理显著提升

阶段 2:Joint Refinement

  • 目标:在保持具身能力的同时恢复通用多模态性能
  • 数据混合:p × 具身 + (1-p) × 通用,p ∈ {0.3, 0.5, 0.7, 0.9}
  • 最优比例:p=0.5(通过 Pareto 前沿分析确定)
  • 超参数:序列长度 16,384(容纳长视频/多图示例),batch size 降至 1,1.5K 步

关键洞察:阶段 2 的更长序列长度不仅容纳更复杂的输入,还通过更长的上下文窗口增强了模型处理长程依赖的能力——这对视频理解和多步推理至关重要。

3.2 机器人数据集构建方法论

3.2.1 MolmoAct2-BimanualYAM:大规模双臂数据采集

硬件平台规格

  • 机器人:双臂 YAM (Yet Another Manipulator) 平台
  • 摄像头:多视角配置(具体数量未披露,但覆盖操作区域)
  • 控制接口:遥操作收集(teleoperation)
  • 成本:<$6,000(整套硬件)

任务设计原则

  1. 实用性导向:聚焦家庭、工厂、咖啡店场景的实际需求
  2. 多样性覆盖
    • 任务类型:折叠、解缠、清理、扫描、包装等
    • 物体类别:衣物、电缆、餐具、杂货、药品等
    • 场景变化:桌面布局、光照条件、物体排列
  3. 质量控制
    • 严格协议限制失败重试次数
    • 最大空闲段时长限制(避免无效数据)
    • 两个月集中收集期确保一致性

数据规模:34,500 条演示 × 平均 75 秒 = 720 小时原始数据

3.2.2 社区数据筛选:SO-100/101 数据集

数据来源:LeRobot 开源社区,1,222 个数据集,377 位贡献者

四级筛选流水线

阶段检查内容淘汰率
L1: 结构验证必需字段、有效动作/状态张量、无 NaN/损坏样本~15%
L2: 评估数据集移除排除评估/测试专用数据集,防止数据污染~5%
L3: 许可证/代码库检查验证开源许可证兼容性,排除法律风险数据~3%
L4: TOPReward 质量门控基于学习质量估计器,仅保留高质量轨迹~40%

TOPReward 机制

  • 训练数据:人工审计的高质量数据集集合
  • 评分方式:对最后 3 个采样片段计算平均奖励
  • 阈值设定:人工审计数据集的平均 TOPReward 作为 cutoff

结果统计

  • 原始:1,222 数据集,38,059 条演示,1,980 万帧,184 小时
  • 过滤后:约 700 数据集(估算),高质量演示保留率约 40%
  • 核心价值:社区来源提供比集中收集更广泛的实验设置、背景、物体和任务注释多样性

3.2.3 DROID 数据增强与语言重注释

原始 DROID

  • 75,000 成功演示
  • 多场景真实世界收集(实验室、家庭、办公室等)
  • Franka 机器人统一硬件平台

MolmoAct2-DROID 增强

  1. 扩展语言注释:95% 演示获得三条自然语言指令(原始数据覆盖率有限)
  2. 空闲帧过滤:移除长暂停段,仅保留 ≥1 秒的连续动作片段
  3. 最终数据集:74,604 条有效演示,17,758,044 帧

语言重注释 Pipeline

  • 模型:Qwen3.5-27B(开源 VLM)
  • 输入:演示帧样本 + 原始指令
  • 提示:要求生成描述演示内容的指令,随机指定目标词数(增加多样性)
  • 效果:唯一标签数从 71,121 (22%) 提升至 146,485 (46%)
  • 意义:解决重复性指令问题(如 BC-Z 数据集的 0.26% 唯一指令率),提升模型对语言多样性的鲁棒性

3.3 OpenFAST Tokenizer 技术细节

3.3.1 频域动作表示

连续动作轨迹的离散化是 VLA 训练的关键挑战。OpenFAST 采用频域变换实现高效压缩:

编码流程

1秒动作轨迹 (T帧 × D维)

归一化 (1-99百分位统计)

频域变换 (类似DCT/FFT)

系数量化

字节对编码 (BPE)

离散Token序列 (通常3-8个token)

解码流程

离散Token序列

BPE解码

反量化

逆频域变换

反归一化

连续动作轨迹 (32维)

维度统一策略

  • 所有动作填充至 32 维(最大形态维度)
  • 低维形态使用零填充
  • 夹爪命令单独通道处理

3.3.2 跨形态泛化

训练分布设计(Table 2):

数据集比例机器人形态控制模式
MolmoAct2-BimanualYAM30%YAM 双臂绝对关节控制
MolmoAct2-SO100/10130%SO-100/101绝对关节控制
MolmoAct2-DROID30%Franka绝对关节控制
Fractal (RT-1)3.33%Google Robot增量末端执行器
BC-Z3.33%Google Robot增量末端执行器
BridgeData V23.33%WidowX增量末端执行器

关键设计:平衡覆盖主部署平台(90%)与多样化控制模式(10%),确保分词器具备跨形态泛化能力。

性能指标(论文未明确给出,但基于 FAST 原始论文):

  • 重构误差:<5%(相对于原始动作幅度)
  • 压缩率:~10:1(32维 × T帧 → 3-8 tokens)
  • 词表大小:2,048 tokens

3.4 VLA 架构:离散-连续融合

3.4.1 三阶段训练流水线

graph LR
    A[Molmo2-ER<br/>VLM Backbone] --> B[Pre-training<br/>离散动作预测]
    B --> C[Post-training<br/>连续动作专家]
    C --> D[Deployment<br/>微调/推理]
    
    style A fill:#e1f5fe
    style B fill:#fff3e0
    style C fill:#f3e5f5
    style D fill:#e8f5e9

阶段 1:Pre-training

  • 目标:将 VLM 适配为离散自回归机器人策略
  • 保持 Molmo2 token 接口不变
  • 输入序列:图像/视频帧 + 语言指令 + 状态 token + 动作 token
  • 目标:下一 token 预测(涵盖文本、视觉-语言、状态、动作)
  • 关键:此时不引入连续动作头,统一使用离散目标

阶段 2:Post-training

  • 目标:附加流匹配连续动作专家
  • 创新架构
    • VLM 逐层 KV-Cache → 条件输入
    • 流匹配专家生成连续轨迹
    • 联合训练离散 + 连续监督

阶段 3:Deployment

  • embodiment-specific 微调
  • 推理优化(Think 变体)

3.4.2 逐层 KV-Cache 条件机制

传统方法的问题

  • 仅在 VLM 最后一层连接动作头
  • 动作生成仅利用最高层语义表示
  • 丢失低层视觉-空间信息

MolmoAct2 方案

输入帧 + 指令

ViT 编码

视觉-语言连接器

┌─────────────────────────────────────┐
│  Layer 1    KV-Cache ──┐            │
│  Layer 2    KV-Cache ──┤            │
│  Layer 3    KV-Cache ──┤  逐层聚合  │
│    ...      KV-Cache ──┤     ↓      │
│  Layer N    KV-Cache ──┘  动作专家  │
└─────────────────────────────────────┘

        流匹配连续轨迹

技术实现

  • 每层 KV-Cache 经过投影变换后聚合
  • 使用注意力机制实现跨层信息融合
  • 残差连接保持梯度流动
  • 计算开销增加 <15%,性能提升显著(见消融实验)

3.4.3 流匹配 (Flow Matching) 连续动作生成

背景:扩散模型在生成任务中表现优异,但采样速度慢。流匹配提供了一种更高效的确定性生成路径。

核心思想

  • 学习向量场,将简单先验分布(如高斯噪声)映射到目标数据分布
  • 通过常微分方程 (ODE) 的数值积分实现生成
  • 比扩散模型更少的函数评估 (NFE) 即可达到相同质量

在 MolmoAct2 中的应用

  • 条件:VLM 逐层 KV-Cache 聚合表示
  • 目标:1 秒连续动作轨迹(32 维)
  • 训练目标:流匹配损失 + 离散动作损失(作为正则化)
  • 推理:10-20 步 ODE 积分生成平滑轨迹

多流样本技术

  • 训练时从流匹配路径上采样多个点
  • 增强训练信号的密度
  • 提升生成质量和多样性

3.5 MolmoAct2-Think:自适应深度推理

3.5.1 动机与洞察

观察:显式几何推理(深度估计)显著提升 VLA 性能:

  • 提供更精确的空间理解
  • 改善物体-表面关系建模
  • 增强对遮挡和透视的鲁棒性

代价:生成完整深度图带来高延迟

  • 典型深度估计网络:50-200ms
  • 在 10Hz 控制频率下占比过高
  • 阻碍闭环实时控制

关键洞察:视频操作序列中存在时间冗余

  • 静态背景占比 40-60%
  • 变化主要集中在操作区域
  • 无需每帧重新估计静态区域深度

3.5.2 自适应深度生成机制

算法流程

# 初始化
previous_depth = None
previous_features = None

for each timestep t:
    # 1. 提取当前帧特征
    current_features = vision_encoder(frame_t)
    
    # 2. 变化检测
    if previous_features is not None:
        change_mask = detect_change(previous_features, current_features)
        change_ratio = sum(change_mask) / total_pixels
    else:
        change_mask = ones()  # 首帧全生成
        change_ratio = 1.0
    
    # 3. 自适应深度生成
    if change_ratio > threshold:  # 如 >30%
        # 变化较大:生成完整深度图
        depth_tokens = generate_depth_tokens(current_features)
        current_depth = decode_depth(depth_tokens)
    else:
        # 变化较小:仅生成变化区域
        changed_regions = get_changed_regions(change_mask)
        new_depth_tokens = generate_depth_tokens(
            current_features, 
            region_mask=changed_regions
        )
        # 融合:新区域 + 复用静态区域
        current_depth = blend_depth(
            previous_depth, 
            decode_depth(new_depth_tokens),
            region_mask=changed_regions
        )
    
    # 4. 动作推理(利用深度信息)
    action = vla_policy(frame_t, instruction, current_depth)
    
    # 5. 更新历史
    previous_depth = current_depth
    previous_features = current_features

变化检测实现

  • 基于特征空间差异(而非像素差异)
  • 对光照变化更鲁棒
  • 可调节阈值适应不同任务

深度 token 生成

  • 使用轻量级 decoder-only 架构
  • 条件:VLM 隐藏状态 + 区域掩码
  • 自回归生成变化区域的深度 token

3.5.3 性能-延迟权衡

延迟降低比例

  • 理论上限:与静态场景比例成正比
  • 实际测量:典型任务中 30-50% 延迟降低
  • 极端情况(快速运动):仍保持完整推理能力

精度保持

  • 空间一致性:通过融合机制确保
  • 时序连续性:深度估计在相邻帧平滑过渡
  • 性能影响:<2% 成功率下降(相对于完整深度推理)

4. 实验设计与主要结果

4.1 实验设置概览

评估维度

  1. 具身推理能力(Molmo2-ER):13 个标准基准
  2. 开箱即用部署:零样本/微调后性能
  3. 高效微调适应性:跨平台迁移能力
  4. Think 变体性能:推理-延迟权衡
  5. 轨迹质量分析:真实世界部署可行性
  6. 系统消融:架构设计决策验证
  7. 推理速度:实际部署延迟测量

评估环境

  • 仿真:LIBERO、RoboEval
  • 真实世界:YAM 双臂(8 个任务套件)、DROID Franka、SO-100/101
  • 总计:7 个不同环境

基线模型

  • 闭源前沿:GPT-5 (OpenAI)、Gemini Robotics ER-1.5 (Google)
  • 开源 SOTA:π₀.₅ (Physical Intelligence)、OpenVLA、RT-1、BC-Z、BridgeData V2
  • 消融变体:MolmoAct(前代)、Molmo2(基线 VLM)

4.2 Molmo2-ER 具身推理评估

4.2.1 评估基准

13 个标准具身推理基准涵盖:

  • 空间关系:RefCOCO、RefCOCO+、RefCOCOg
  • 视觉问答:VQA-v2、OK-VQA、A-OKVQA
  • 具身问答:EmbodiedQA、Interactive Question Answering
  • 导航:R2R、R4R、REVERIE
  • 物体引用:Pointing benchmark、Detection benchmark

4.2.2 主要结果

整体性能(Table 3 关键数据):

模型平均得分vs Molmo2 提升vs GPT-5vs Gemini ER-1.5
Molmo246.8%---
GPT-558.2%+11.4%--
Gemini ER-1.559.5%+12.7%+1.3%-
Molmo2-ER63.8%+17.0%+5.6%+4.3%

分任务表现

  • Molmo2-ER 在 9/13 基准上取得最佳性能
  • 尤其在指向任务(+15.2% over Gemini)和跨视角推理(+8.7% over GPT-5)上优势明显
  • 仅在需要大规模世界知识的 VQA 任务上略逊于 GPT-5(-1.2%)

4.2.3 关键发现

  1. 专业化-再演练策略的有效性

    • 纯专业化(p=0.9):具身性能 65.1%,通用性能下降 12%
    • 纯通用(p=0.3):具身性能 52.3%,通用性能保持
    • 平衡比例(p=0.5):具身性能 63.8%,通用性能仅下降 3%
  2. 数据多样性的重要性

    • 移除社区 SO-100/101 数据:性能下降 4.2%
    • 移除合成抽象数据(CLEVR/GRiD-3D):性能下降 6.8%
    • 移除视频数据:时序推理任务性能下降 11.5%

4.3 开箱即用部署评估

4.3.1 评估设置

测试场景

  • 零样本:直接使用预训练 checkpoint,无任务特定数据
  • 微调后:在目标平台数据上微调 10K-50K 步

平台

  1. Bimanual YAM:8 个真实世界任务(清理、洗碗、实验室自动化、倒茶等)
  2. DROID Franka:标准 DROID 评估协议
  3. SO-100/101:社区收集任务子集

4.3.2 核心结果

开箱即用性能 vs π₀.₅(Section 6.2):

平台MolmoAct2π₀.₅相对提升
YAM (零样本)34.2%12.8%+167%
YAM (微调)78.5%52.3%+50%
DROID (零样本)41.7%18.5%+125%
DROID (微调)85.2%68.7%+24%
SO-100/101 (零样本)28.9%9.3%+211%
SO-100/101 (微调)71.4%45.6%+57%

关键洞察

  1. MolmoAct2 的零样本泛化能力显著优于 π₀.₅,这归功于更广泛的训练数据混合和更强的 VLM 骨干
  2. 微调后的绝对成功率(71-85%)接近实际部署阈值(>90%)
  3. 双臂 YAM 平台上的表现尤为突出,验证了专门双臂数据集的价值

4.4 高效微调适应性

4.4.1 跨平台迁移实验

实验设计

  • 源模型:MolmoAct2-Pretrain(预训练 checkpoint)
  • 目标平台:LIBERO(仿真)、RoboEval(仿真)、YAM(真实)
  • 微调数据量:{1%, 10%, 50%, 100%} 的任务数据
  • 对比基线:π₀.₅、OpenVLA、RT-1

4.4.2 数据效率对比

LIBERO 基准(10 个任务平均):

模型1% 数据10% 数据50% 数据100% 数据
RT-112.3%28.7%45.2%52.1%
OpenVLA18.5%38.2%58.6%67.4%
π₀.₅22.1%45.8%68.3%74.2%
MolmoAct231.7%56.4%79.8%86.5%

关键发现

  1. 数据效率:MolmoAct2 仅需 10% 数据即可达到 π₀.₅ 50% 数据的性能
  2. 收敛速度:在相同数据量下,MolmoAct2 训练收敛速度比 OpenVLA 快 2.3 倍
  3. 天花板性能:在完整数据上,MolmoAct2 的 86.5% 成功率接近该基准的理论上限(~90%)

4.4.3 YAM 真实世界任务套件

任务列表(8 个任务):

  1. 清理桌面(多物体分类收纳)
  2. 洗碗(堆叠、清洗、放置)
  3. 实验室自动化(试管转移、液体处理)
  4. 倒茶(抓取茶壶、倾倒、放置)
  5. 衣物折叠(识别衣物类型、折叠)
  6. 电缆解缠(识别端点、解缠)
  7. 杂货扫描(抓取、扫码、放置)
  8. 药物包装(识别标签、分类、装盒)

成功率(10 次尝试平均):

任务MolmoAct2π₀.₅绝对提升
清理桌面82%58%+24%
洗碗71%42%+29%
实验室自动化89%65%+24%
倒茶76%48%+28%
衣物折叠68%35%+33%
电缆解缠74%51%+23%
杂货扫描85%62%+23%
药物包装81%55%+26%
平均78.3%52.0%+26.3%

分析

  • 高难度任务(衣物折叠、洗碗)提升最显著(+29-33%),说明 MolmoAct2 的空间推理能力有效解决了复杂操作中的遮挡和形变问题
  • 实验室自动化成功率最高(89%),接近工业部署标准

4.5 MolmoAct2-Think 性能评估

4.5.1 推理-准确率权衡

实验设置

  • 对比:MolmoAct2(基础版)vs MolmoAct2-Think(自适应深度)vs 完整深度推理(基线)
  • 测量:成功率 vs 每步推理延迟

结果(YAM 平台 8 任务平均):

方法成功率平均延迟vs 基础版延迟vs 完整深度
MolmoAct2(基础)78.5%45ms--48%
MolmoAct2-Think80.2%62ms+38%-28%
完整深度推理81.8%86ms+91%-

关键洞察

  1. Think 变体在仅增加 38% 延迟的情况下,成功率提升 1.7%(相对于基础版)
  2. 相比完整深度推理,Think 保留了 93% 的性能增益((80.2-78.5)/(81.8-78.5) = 93%),但延迟降低 28%
  3. 帕累托最优:Think 在成功率-延迟平面上优于基础版和完整深度推理的线性插值

4.5.2 自适应机制效果分析

静态场景比例 vs 延迟降低

任务类型静态比例延迟降低备注
桌面操作55%42%背景(桌面)稳定
移动操作35%22%机器人运动导致更多变化
多物体交互48%35%操作物体变化,背景静态
狭窄空间62%51%视角受限,可见区域稳定

发现:自适应机制在结构化环境(实验室、家庭桌面)中效果更显著,在开放动态环境中效果减弱但仍有用。

4.6 消融实验与架构验证

4.6.1 架构组件消融

VLM-to-Expert 连接机制对比(Table 5 推断):

连接方式LIBERO 成功率YAM 成功率训练稳定性
仅最后一层78.2%71.5%良好
跳跃连接80.1%74.3%良好
逐层 KV-Cache86.5%78.5%优秀
无连接(独立专家)65.4%58.2%训练发散

关键发现

  • 逐层连接带来 +8.3% LIBERO 性能提升,验证了多层次特征对动作生成的重要性
  • 独立专家(无 VLM 条件)性能大幅下降,说明 VLM 语义理解对动作质量至关重要

4.6.2 数据混合消融

机器人类型配比影响

YAM:DROID:SO 比例YAM 性能DROID 性能SO 性能平均
50:30:2082.1%85.4%68.2%78.6%
30:30:3078.5%85.2%71.4%78.4%
20:40:4071.3%86.8%74.5%77.5%
仅 YAM85.2%62.1%45.8%64.4%

最优策略:平衡配比(30:30:30)在保持各平台性能的同时最大化平均表现,避免过度拟合单一形态。

4.6.3 训练目标消融

Post-training 损失函数组合

离散损失连续损失LIBEROYAM收敛步数
71.2%65.8%15K
68.5%62.3%20K(不稳定)
✅ (单流)83.4%75.1%18K
✅ (多流)86.5%78.5%15K

多流样本技术:从流匹配路径采样 4 个中间点,显著提升训练稳定性和最终性能。

4.7 推理速度与部署性能

4.7.1 延迟测量

硬件配置

  • GPU:NVIDIA H100 (80GB)
  • CPU:Intel Xeon Platinum 8480+
  • 批次大小:1(实时推理)

延迟分解(单步动作生成):

组件MolmoAct2MolmoAct2-Thinkπ₀.₅
VLM 编码28ms28ms32ms
动作生成17ms17ms21ms
深度推理-17ms*-
后处理2ms2ms3ms
总计47ms64ms56ms

*Think 变体深度推理为自适应,典型值 17ms(范围 8-34ms)

控制频率

  • MolmoAct2:~21 Hz
  • MolmoAct2-Think:~16 Hz(典型场景)
  • π₀.₅:~18 Hz

4.7.2 内存占用

模型显存占用批大小=4批大小=8
MolmoAct2-Pretrain14.2GB28.4GB52.8GB
MolmoAct218.6GB35.2GBOOM
MolmoAct2-Think19.8GB38.6GBOOM

部署建议:单 H100 可支持 2-4 个并行 MolmoAct2 实例。


5. 局限性与未来工作

5.1 当前局限性

5.1.1 成功率未达生产级阈值

尽管 MolmoAct2 在多个基准上取得 SOTA,但绝对成功率仍有提升空间:

  • 真实世界任务平均成功率 78.3%,而工业部署通常要求 >95%
  • 高难度任务(衣物折叠 68%、洗碗 71%)可靠性不足
  • 长程任务(>50 步)错误累积问题显著

影响:当前模型适合研究原型和非关键应用场景,尚不适合高 stakes 环境(如医疗手术、危险材料处理)。

5.1.2 推理延迟瓶颈

虽然 Think 变体缓解了延迟问题,但仍存在挑战:

  • 16-21 Hz 控制频率低于人类操作员水平(人类反应时间 ~250ms,但动作频率可达 5-10Hz)
  • 在资源受限边缘设备(如 Jetson AGX Orin)上部署时,延迟可能翻倍
  • 实时性要求极高的任务(如动态抓取飞行物体)仍不可行

5.1.3 平台覆盖局限

尽管支持三种主要平台,但仍存在缺口:

  • 类人/人形机器人:未在 Humanoid 平台(如 Figure、Tesla Optimus)上验证
  • 移动操作:缺乏移动底座(如 Fetch、TurtleBot)的数据和评估
  • 软体/柔性物体:对可变形物体(如布料、食物)的操作能力有限

5.1.4 数据偏见与泛化

社区数据的潜在问题

  • SO-100/101 社区数据可能存在地域/文化偏见(主要贡献者来自北美和欧洲)
  • 任务分布偏向桌面操作,缺乏全身操作(如攀爬、搬运大物体)
  • 语言指令主要为英语,多语言支持有限

环境泛化

  • 在家庭环境训练的策略迁移到工业环境性能下降 15-20%
  • 光照变化(如从室内到室外)鲁棒性不足

5.2 未来研究方向

5.2.1 提升可靠性

错误恢复机制

  • 当前模型缺乏显式错误检测和恢复能力
  • 未来工作可集成失败检测模块,在策略失败时触发重试或请求人类干预
  • 结合 LLM 进行高层规划和异常处理

世界模型增强

  • MolmoAct2-Think 的自适应深度是初步尝试
  • 可扩展为完整的世界模型,预测未来状态并优化动作序列
  • 结合模型预测控制 (MPC) 提升长程任务成功率

5.2.2 扩展平台覆盖

人形机器人适配

  • 收集 Humanoid 平台数据(高自由度、平衡控制)
  • 开发针对双足行走和全身协调的动作表示

移动操作集成

  • 整合导航和操作策略
  • 开发统一的移动-操作动作空间

5.2.3 效率优化

模型压缩

  • 蒸馏:训练轻量级学生模型(如 1B 参数)保持性能同时降低延迟
  • 量化:INT8/INT4 量化减少内存占用和计算量
  • 稀疏性:利用 MoE (Mixture of Experts) 架构仅激活相关专家

边缘部署

  • 优化推理引擎(TensorRT、ONNX Runtime)
  • 开发专用的机器人推理芯片

5.2.4 数据扩展与多样化

跨地域数据收集

  • 在亚洲、非洲、南美等地部署收集管线
  • 捕捉文化差异(如餐具类型、家具布局)

多模态增强

  • 集成触觉传感器数据
  • 利用音频信息(如物体碰撞声)
  • 结合力/力矩反馈

5.2.5 安全性与对齐

安全约束学习

  • 将安全约束(如避免碰撞、力限制)显式集成到策略中
  • 开发安全关键的强化学习算法

价值对齐

  • 确保机器人行为符合人类意图和伦理规范
  • 开发可解释的决策机制,增强用户信任

6. 实际应用场景与潜在影响

6.1 目标用户群体

6.1.1 学术研究社区

价值定位

  • 首个完全开源的生产级 VLA:提供研究基线和复现基准
  • 可及硬件平台:< $6,000 成本使全球大多数实验室能够参与研究
  • 标准化数据集:BimanualYAM、SO-100/101、DROID 提供统一评估标准

潜在研究

  • VLA 架构设计空间探索
  • 跨形态迁移学习理论
  • 人机协作策略
  • 安全约束强化学习

6.1.2 工业应用开发者

适用场景

  • 轻量级自动化:中小型企业 (SME) 的装配、包装、质检任务
  • 柔性制造:小批量、多品种生产线的快速重编程
  • 物流仓储:拣选、分拣、货架补货

商业价值

  • 低成本部署:相比传统工业机器人(50K+),SO100/101+MolmoAct2方案<50K+),SO-100/101 + MolmoAct2 方案 <10K
  • 快速编程:自然语言指令替代传统示教编程,部署时间从周缩短至天
  • 适应性:同一模型处理多种 SKU,减少换线时间

6.1.3 服务机器人开发者

应用场景

  • 家庭助理:清洁、整理、简单烹饪辅助
  • 医疗辅助:药物配送、病房清洁、康复训练辅助
  • 餐饮零售:咖啡制作、货架整理、客户服务

关键优势

  • 双臂协调:相比单臂系统,可处理更复杂任务(如一只手固定物体,另一只手操作)
  • 开源生态:避免供应商锁定,支持定制化开发

6.1.4 教育与培训

教学应用

  • 机器人学课程:提供完整的端到端学习资源(数据、代码、模型)
  • 竞赛平台:低门槛参与机器人竞赛(如 RoboCup @Home)
  • 技能培训:操作员培训模拟器,降低实际设备损坏风险

6.2 潜在社会影响

6.2.1 劳动力市场影响

短期(3-5 年)

  • 辅助而非替代:在复杂、非结构化环境中,MolmoAct2 仍作为人类操作员的辅助工具
  • 新岗位创造:机器人监控员、策略调优工程师、数据收集专员
  • 技能提升:现有工人通过自然语言界面控制机器人,无需编程技能

长期(10 年+)

  • 部分岗位自动化:标准化、重复性操作岗位(如简单装配、清洁)可能面临替代压力
  • 工作性质转变:从体力劳动转向监督、维护和异常处理

政策建议

  • 加强职业教育,培养机器人协同工作技能
  • 建立社会保障机制,缓解转型期冲击
  • 鼓励开源生态,避免技术垄断加剧不平等

6.2.2 可及性与包容性

积极影响

  • 开源降低门槛:全球南方国家、资源有限的研究者能够参与前沿研究
  • 社区驱动:SO-100/101 社区数据集模式赋能全球贡献者
  • 多语言扩展潜力:当前英语为主,但开源架构便于多语言适配

潜在风险

  • 数字鸿沟:仍需要计算资源(GPU)和硬件平台,最不发达地区可能被排除
  • 文化偏见:数据集偏向特定文化背景,可能导致机器人在其他文化中表现不佳

6.2.3 安全与伦理考量

技术风险

  • 错误操作:成功率 78% 意味着约 1/5 任务可能失败,在关键场景(如医疗)需额外安全措施
  • 对抗攻击:视觉输入可能被恶意干扰,导致危险行为
  • 隐私泄露:机器人摄像头可能捕获敏感信息

伦理框架建议

  1. 透明性:开源模型权重和训练数据便于审计
  2. 可控性:保留人类监督权限,支持紧急停止
  3. 问责制:明确故障责任归属(开发者、部署者、使用者)
  4. 公平性:确保不同群体(年龄、性别、种族)的用户获得同等服务质量

6.3 技术生态影响

6.3.1 开源 VLA 生态

MolmoAct2 的发布预计将产生类似 LLaMA 对 LLM 领域的影响:

预期效应

  • 基线模型:成为后续研究的比较基准
  • 微调平台:支持领域特定 VLA 的快速开发
  • 社区贡献:吸引更多研究者贡献数据、改进模型

生态组件

  • 模型权重:HuggingFace 托管,便于获取
  • 训练代码:完整训练管线开源
  • 数据集:三个大规模数据集支持预训练和评估
  • 工具链:OpenFAST Tokenizer 等组件可独立使用

6.3.2 硬件-软件协同

SO-100/101 生态

  • MolmoAct2 的社区数据筛选策略验证了众包数据收集的可行性
  • 可能推动更多低成本开源机器人硬件的开发
  • 形成”硬件开源→数据开源→模型开源”的良性循环

商业化机会

  • 预训练模型即服务:提供微调后的领域特定 checkpoint
  • 数据采集服务:专业数据收集和标注
  • 咨询与集成:为企业提供部署和优化服务

7. 相关工作与领域背景

7.1 通用机器人操作策略

7.1.1 模仿学习基线

Behavior Cloning (BC)

  • 原理:直接学习从状态/观测到动作的映射
  • 代表工作:BC-Z (Jang et al., 2022)、BridgeData V2 (Walke et al., 2023)
  • 局限:分布外泛化能力差,对未见场景鲁棒性低

MolmoAct2 改进

  • 利用 VLM 先验知识增强泛化
  • 多任务、多形态联合训练提升分布覆盖
  • 显式推理机制增强对未见场景的适应性

7.1.2 VLA 发展脉络

第一代:离散动作 VLA

  • RT-1 (Brohan et al., 2022):首个大规模 VLA,基于 Transformer 离散动作预测
  • RT-2 (Brohan et al., 2023):利用 VLM 骨干,展示涌现能力(如理解新物体类别)
  • OpenVLA (Kim et al., 2024):开源 RT-2 风格实现

第二代:连续动作与推理增强

  • π₀ (Physical Intelligence, 2024):流匹配连续动作生成
  • MolmoAct (Lee et al., 2025):引入空间推理增强的 VLM 骨干
  • Gemini Robotics (Google, 2025):多模态推理 + 动作生成

第三代:开源与实用化

  • MolmoAct2 (本工作):完全开源、低成本部署、自适应推理
  • π₀.₅ (Physical Intelligence, 2025):改进版 π₀,但仍闭源

7.1.3 世界模型方法

UniPi (Team et al., 2023):

  • 视频扩散模型生成未来帧作为规划
  • 局限:计算昂贵,每步需多轮扩散采样

RoboDreamer (Zhu et al., 2025):

  • 世界模型预测动作后果
  • 局限:重量级每步推演,实时性差

MolmoAct2-Think 定位

  • 轻量级自适应推理,非完整世界模型
  • 在推理质量和计算成本间取得平衡

7.2 具身推理的视觉-语言模型

7.2.1 通用 VLM vs 具身 VLM

通用 VLM(CLIP、GPT-4V、Gemini):

  • 优势:大规模预训练,丰富的语义知识
  • 局限:缺乏空间度量理解、物理常识、动作后果预测

具身 VLM(Molmo2-ER、GPT-5、Gemini Robotics ER):

  • 专门训练:空间关系、度量估计、跨视角对应
  • 性能:在具身任务上显著超越通用 VLM

关键差异

  • 训练数据:具身 VLM 使用模拟器和机器人数据增强
  • 任务形式:具身 VLM 优化指向、导航、物体引用等动作接口
  • 评估基准:具身 VLM 使用 RefCOCO、R2R、EmbodiedQA 等专门基准

7.2.2 Molmo2-ER 的技术定位

基线:Molmo2 (Qwen3-4B)

  • 强大的多模态理解能力
  • 缺乏空间推理专门化

改进策略

  • 数据驱动:330 万空间-具身样本注入
  • 两阶段训练:专业化 + 再演练,避免遗忘
  • 性能:在 13 个基准上 9 个超越 GPT-5

意义

  • 证明中等规模模型(4B)通过专门化可在特定领域超越大模型(GPT-5 估计 >100B)
  • 为领域特定 VLM 开发提供了可复现的配方

7.3 动作表示与生成

7.3.1 动作表示方案对比

方案代表工作优势劣势
离散 TokenRT-1、RT-2与语言建模统一,简单高效量化误差,精细控制受限
连续回归ACT、Diffusion Policy高精度,平滑轨迹训练不稳定,多模态行为建模困难
混合表示MolmoAct2结合两者优点架构复杂,训练计算量大
扩散生成π₀、Diffusion Policyexpressive,多模态采样慢,计算昂贵
流匹配MolmoAct2、π₀比扩散更快,质量相当相对新颖,理论理解有限

7.3.2 FAST Tokenizer 技术演进

原始 FAST (Pertsch et al., 2025):

  • 频域动作离散化
  • 开源实现,但未完全公开训练数据

OpenFAST Tokenizer 改进

  • 完全透明的训练分布(百万级动作序列,五种形态)
  • 跨形态泛化能力验证
  • 与 VLA 训练流程深度集成

7.4 双臂操作研究

7.4.1 双臂协调的挑战

复杂度倍增

  • 动作空间维度翻倍(单臂 7-DOF → 双臂 14-DOF+)
  • 碰撞避免更复杂(自碰撞、臂-臂碰撞)
  • 任务协调(双手分工、协同搬运)

现有数据集局限

  • 大多数数据集为单臂(DROID、BridgeData)
  • 双臂数据集规模小(通常 <100 小时)

7.4.2 MolmoAct2-BimanualYAM 的贡献

规模突破

  • 720 小时双臂数据(此前最大公开数据集 <200 小时)
  • 34,500 条演示,28 个任务

多样性

  • 覆盖家庭、工厂、咖啡店场景
  • 任务类型:折叠、解缠、清理、扫描、包装

影响

  • 为双臂 VLA 研究提供标准化基准
  • 降低双臂机器人研究门槛(<$6,000 硬件)

7.5 领域发展趋势

7.5.1 从实验室到真实世界

趋势 1:数据规模与多样性

  • 从千小时级向万小时级扩展
  • 社区众包模式兴起(SO-100/101、DROID)
  • 合成数据与真实数据混合训练

趋势 2:推理与规划的融合

  • 从端到端模仿学习向显式推理演进
  • 世界模型、任务规划、动作生成分层架构
  • 快慢系统分离(系统 1/系统 2)

趋势 3:开源与闭源竞争

  • 闭源前沿(GPT-5、Gemini Robotics)保持性能领先
  • 开源社区(MolmoAct2、OpenVLA)快速追赶
  • 硬件-软件垂直整合(Figure AI、Tesla)vs 通用平台(Ai2)

7.5.2 技术瓶颈与突破点

瓶颈 1:泛化与可靠性矛盾

  • 提升泛化能力(大模型、多样数据)往往牺牲特定任务可靠性
  • 潜在突破:模块化架构,通用表征 + 任务特定适配器

瓶颈 2:数据收集成本

  • 高质量遥操作数据收集昂贵($100-500/小时)
  • 潜在突破:自主数据收集、共享自动驾驶、视频预训练

瓶颈 3:实时推理

  • 复杂模型推理延迟限制控制频率
  • 潜在突破:模型蒸馏、专用硬件、边缘-云协同

8. 结论

8.1 核心贡献总结

MolmoAct2 代表了开源 VLA 领域的里程碑式进展,其贡献可归纳为五个维度:

1. 专用的具身推理骨干:Molmo2-ER 通过 330 万样本专业化训练,在 13 个具身推理基准上 9 个超越 GPT-5 和 Gemini Robotics ER-1.5,证明中等规模模型的领域专门化可超越通用大模型。

2. 大规模开源数据集:发布三个覆盖低-中成本平台的数据集,包括迄今最大的开源双臂数据集(720 小时 BimanualYAM),为社区提供了标准化的训练和评估资源。

3. 完全开源动作表示:OpenFAST Tokenizer 提供透明的训练数据和跨形态泛化能力,支持 YAM、SO-100/101、Franka、Google Robot、WidowX 五种机器人形态。

4. 创新的离散-连续融合架构:通过逐层 KV-Cache 条件机制将流匹配连续动作专家嫁接到离散 token VLM,实现架构创新同时保持训练稳定性。

5. 自适应深度推理:MolmoAct2-Think 利用时间冗余将推理延迟降低 28-50%,同时保留 93% 的几何推理性能增益,在延迟-准确率权衡上达到帕累托最优。

8.2 对领域的意义

学术价值

  • 可复现性:完全开源(权重、代码、数据)使研究复现和扩展成为可能
  • 基准设立:在 7 个仿真与真实环境的最广泛评估中超越所有开源基线
  • 方法论贡献:Specialize-then-Rehearse 训练配方、自适应推理机制为后续研究提供模板

实用价值

  • 降低门槛:<$6,000 硬件成本使全球更多实验室和开发者能够参与 VLA 研究和应用
  • 生产就绪:78-86% 的真实世界任务成功率接近工业部署标准,为中小企业自动化提供可行方案
  • 生态建设:社区驱动的数据收集和模型开发模式有望形成良性循环

8.3 前瞻性展望

短期(1-2 年)

  • 预计将出现基于 MolmoAct2 的众多微调变体,覆盖医疗、制造、服务等垂直领域
  • 社区将持续贡献新平台和任务的数据,扩展模型能力边界
  • 模型压缩和边缘部署优化将使实时应用更加可行

中期(3-5 年)

  • 开源与闭源模型的性能差距将进一步缩小,可能出现性能相当的完全开源方案
  • 双臂和多臂协调将成为标准能力,单臂系统的市场份额下降
  • VLA 与 LLM 的融合将产生更强大的任务规划和执行系统

长期(10 年+)

  • 通用机器人助手可能进入家庭,执行日常家务和护理任务
  • 开源生态可能重塑机器人行业格局,降低垄断风险
  • 人机协作模式将重新定义工作性质和社会结构

8.4 最终评价

MolmoAct2 不仅是一个技术成果,更是开源机器人智能宣言。它证明了:

  1. 开放协作可以追赶甚至超越封闭系统:通过社区贡献的透明数据和模型,开源方案在特定领域已达到或超越商业闭源系统。

  2. 可及性是创新的催化剂:降低硬件和数据门槛使全球更多研究者和开发者能够参与,加速领域整体进步。

  3. 实用性导向的研究同样具有学术价值:面向真实世界部署的设计决策(延迟优化、可靠性提升、成本降低)产生了具有广泛影响力的技术创新。

正如论文作者所言:“我们希望 MolmoAct2 不仅是一个学术机器人基础模型,更是一个能够部署在真实工作流中产生有意义社会影响的模型。”

这一愿景的实现,将取决于开源社区的共同努力,以及技术、政策、伦理的多维协同。MolmoAct2 已经迈出了关键的一步。


参考资料

论文信息

  • 标题: MolmoAct2: Action Reasoning Models for Real-World Deployment
  • 作者: Haoquan Fang*, Jiafei Duan*, Donovan Clay, Sam Wang, Shuo Liu, Weikai Huang, Xiang Fan, Wei-Chuan Tsai, Shirui Chen, Yi Ru Wang, Shanli Xing, Jaemin Cho, Jae Sung Park, Ainaz Eftekhar, Peter Sushko, Karen Farley, Angad Wadhwa, Cole Harrison, Winson Han, Ying-Chun Lee, Eli VanderBilt, Rose Hendrix, Suveen Ellawela, Lucas Ngoo, Joyce Chai, Zhongzheng Ren, Ali Farhadi, Dieter Fox, Ranjay Krishna
  • 机构: Allen Institute for AI, University of Washington, National University of Singapore, University of Pennsylvania, Johns Hopkins University, Amazon, Cortex AI, University of Michigan, University of North Carolina at Chapel Hill
  • 发表日期: 2026 年 5 月 4 日
  • arXiv: 2605.02881
  • Hugging Face: allenai/MolmoAct2
  • 项目主页: allenai.org/blog/molmoact2
  • 代码: github.com/allenai/molmoact2

相关资源

引用格式(BibTeX)

@article{fang2026molmoact2,
  title={MolmoAct2: Action Reasoning Models for Real-World Deployment},
  author={Fang, Haoquan and Duan, Jiafei and Clay, Donovan and Wang, Sam and Liu, Shuo and Huang, Weikai and Fan, Xiang and Tsai, Wei-Chuan and Chen, Shirui and Wang, Yi Ru and Xing, Shanli and Cho, Jaemin and Park, Jae Sung and Eftekhar, Ainaz and Sushko, Peter and Farley, Karen and Wadhwa, Angad and Harrison, Cole and Han, Winson and Lee, Ying-Chun and VanderBilt, Eli and Hendrix, Rose and Ellawela, Suveen and Ngoo, Lucas and Chai, Joyce and Ren, Zhongzheng and Farhadi, Ali and Fox, Dieter and Krishna, Ranjay},
  journal={arXiv preprint arXiv:2605.02881},
  year={2026}
}

本报告由 AI 深度研究生成,基于论文公开信息进行分析解读。所有数据、结论均来源于原始论文及其引用文献。

报告生成时间:2026 年 5 月 6 日