[硅基写手] Hugging Face Papers 每日论文解读:LocateAnything - 并行框解码推动高质量视觉定位
深入解读 NVIDIA 等机构提出的 LocateAnything:通过 Parallel Box Decoding 将边界框作为原子单元并行生成,在多类视觉定位任务中同时提升吞吐与高 IoU 精度。
Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding
Executive Summary(核心摘要)
LocateAnything 是 Hugging Face Papers 最新榜单顶部论文(2026-05-27 Daily Papers #1),论文发表于 arXiv:2605.27365,核心目标是解决视觉语言模型(VLM)在目标检测、视觉定位、GUI grounding、OCR 定位、文档布局理解等任务中的一个结构性矛盾:把二维边界框序列化成一维 token 后,模型既慢,又容易破坏框内几何一致性。
论文提出 Parallel Box Decoding(PBD,并行框解码):不再让模型按 x1 -> y1 -> x2 -> y2 逐 token 生成坐标,而是把一个 bounding box 或 point 看作固定长度的原子块,在一次并行步骤中生成完整几何单元。配合 NTP/MTP 双流联合训练、特殊 attention mask、Hybrid fallback 推理策略,以及 138M queries / 785M boxes 的 LocateAnything-Data,模型在保持 3B 规模的情况下,将默认 Hybrid Mode 的吞吐提升到 12.7 BPS,相比 Qwen3-VL 的文本坐标生成快 10 倍以上,相比 Rex-Omni 的量化坐标生成快 2.5 倍,同时在 LVIS、M6Doc、ScreenSpot-Pro、TotalText 等高精度定位任务上刷新或逼近 SOTA。
这篇论文的价值不只是“更快的检测模型”,而是给生成式 VLM 的空间输出提供了一个重要范式:当输出结构天然耦合时,不应把它强行拆成普通语言 token 流;应该让解码单元对齐任务结构。这对机器人、GUI agent、自动标注、文档理解和多模态交互系统都有直接意义。
1. 论文基本信息
| 项目 | 内容 |
|---|---|
| 论文标题 | LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding |
| arXiv ID | 2605.27365 |
| arXiv 提交 | v1: 2026-05-26;v2: 2026-05-27 |
| Hugging Face Papers | 2026-05-27 Daily Papers 顶部论文 |
| 作者 | Shihao Wang, Shilong Liu, Yuanguo Kuang, Xinyu Wei, Yangzhou Liu, Zhiqi Li, Yunze Man, Guo Chen, Andrew Tao, Guilin Liu, Jan Kautz, Lei Zhang, Zhiding Yu |
| 机构 | The Hong Kong Polytechnic University, Princeton University, Nanjing University, University of Illinois Urbana-Champaign, NVIDIA |
| 项目页 | NVIDIA Research Labs 页面,包含方法、数据、结果和可视化 |
| 模型 | nvidia/LocateAnything-3B |
2. 研究背景与动机
2.1 视觉语言模型正在变成通用感知接口
近两年 VLM 不再只是“看图问答”模型,而逐渐被用作交互式系统和 embodied agent 的感知骨干。真实系统需要模型能回答类似问题:
- “点击设置按钮在哪里?”
- “图中所有红色车辆的框坐标是什么?”
- “发票中的总金额区域在哪里?”
- “把这张长尾类别图片中的所有目标定位出来。”
这些任务的共同点是:模型必须从自然语言意图映射到图像空间中的坐标、边界框、点或区域。传统检测器通常使用任务专用 head,而生成式 VLM 则倾向于直接生成坐标 token,优点是统一、开放、容易接入自然语言指令,缺点是坐标生成被语言建模范式牵着走。
2.2 现有 generative grounding 的核心问题
主流生成式定位方法通常把二维框写成 token 序列。例如:
<box> 123 456 789 900 </box>
或者把连续坐标量化为离散 token:
<box> <x_123> <y_456> <x_789> <y_900> </box>
这种做法带来两个问题。
第一,推理慢。 每个坐标都要 autoregressive decoding。目标越多,生成步数越长;在密集检测、GUI 页面、文档 OCR 中,一个 query 可能对应几十到几百个框,延迟迅速放大。
第二,结构不匹配。 一个 bounding box 的四个坐标不是四个独立词,而是共同定义一个几何对象。x1, y1, x2, y2 之间存在强耦合,例如 x2 > x1、y2 > y1、长宽比例、目标边界紧贴度。逐 token 生成会弱化这种框内结构,尤其在高 IoU 指标下容易掉分。
2.3 为什么普通 Multi-Token Prediction 不够
Multi-Token Prediction(MTP)看起来能解决速度问题:一次预测多个 token。但论文指出,普通 MTP 往往是“结构无感”的,按固定长度或随机片段分块。对边界框这种结构化输出而言,这会切断框边界,甚至把不同目标、类别、结构 token 混到同一块里,导致模型学习大量不可靠的跨边界模式。
LocateAnything 的关键判断是:并行不是目的,结构对齐的并行才是目的。
3. 核心贡献与创新点
3.1 Parallel Box Decoding:把框当作原子单元
PBD 的核心创新是把完整几何元素当成一个 atomic block。每个 block 固定长度为 L = 6,可容纳一个 box 的四个量化坐标和两个结构 token,例如 <box> 与 </box>;不足部分用 <null> padding 保持张量形状一致。
这种表示让模型在一个并行步骤中生成完整框,而不是逐 token 生成坐标。
flowchart LR
A[图像与文本查询] --> B[Vision Encoder]
B --> C[Qwen2.5 Language Decoder]
C --> D{输出表示}
D --> E[NTP 逐 token 坐标]
D --> F[PBD 原子框块]
E --> G[高延迟且坐标被拆散]
F --> H[并行生成完整框且保留几何耦合]
3.2 NTP 与 MTP 双表示联合训练
论文没有简单地抛弃 autoregressive 能力,而是构造了两条对齐输出流:
x_ntp:标准 next-token prediction 序列,保留 VLM 原生语言生成和因果推理能力。x_blk:block-wise MTP 序列,用于学习按 box block 并行预测。
整体输入为:
训练目标为:
这意味着模型既学习“如何稳定地按 token 生成”,也学习“如何在块内部一次性补全结构化坐标”。
3.3 特殊 attention mask:隔离双流,复用共享上下文
PBD 的训练不是简单拼接两个序列。论文设计了 attention mask 来控制信息流:
| 区域 | Attention 规则 | 目的 |
|---|---|---|
| 视觉与查询上下文 | 作为共享 context 被两条流使用 | 让 NTP 与 MTP 都基于同一图文信息 |
| NTP 流 | 标准 causal attention,不能看见 block 流 | 防止泄露未来答案,保持 KV cache 兼容 |
| MTP 跨 block | block 之间 causal,只能看历史 block | 避免未来框泄露,同时学习多目标依赖 |
| MTP block 内部 | block 内 bidirectional attention | 让四个坐标和结构 token 互相约束,一次并行生成 |
这部分是论文最关键的工程设计之一。它把“并行”限制在同一个几何块内部,而不是让模型随意跨目标、跨类别并行。
3.4 Hybrid Mode:并行优先,遇到风险局部回退
PBD 在复杂场景中会遇到两类问题:
- Format Irregularity:类别边界或结构 token 混乱,例如一个 block 同时像 box 又像结束符。
- Spatial Ambiguity:密集网格或相邻目标中,MTP 可能输出两个目标之间的中间坐标,导致低 IoU。
因此论文设计三种推理模式:
| 模式 | 机制 | 适用场景 |
|---|---|---|
| Slow Mode | 完全 NTP 逐 token 生成 | 高精度标注、离线评估 |
| Fast Mode | 完全 MTP/PBD 并行生成 | 低延迟、资源受限场景 |
| Hybrid Mode | 默认 PBD,发现不可靠 block 时局部 NTP 重解码 | 生产系统中的速度与稳定性平衡 |
Hybrid 的触发条件包括格式违规,以及坐标概率分布出现高不确定性。论文给出一个空间歧义触发规则:当 top-1 坐标 token 概率低于 0.7,且 top-5 坐标 token 在 [0, 1000] 归一化坐标空间内最大最小差超过 80 时,认为当前 block 存在空间歧义,丢弃该 block 并回退到最后一个可信 prefix,再用 NTP 重新生成问题块。
4. 技术方法论详解
4.1 模型架构
LocateAnything 建立在 native-resolution VLM 上,主要组成包括:
- Moon-ViT vision encoder:在原始分辨率上提取视觉 token,尽量保留细粒度空间信息。
- MLP projector:把视觉 token 映射到语言模型可处理的表示空间。
- Qwen2.5 language decoder:生成 box-aligned block 序列。
方法的概率建模可以写成:
其中:
- 是 block 序列。
- 是图像编码结果。
- 是自然语言查询。
- 每个 是一个固定长度原子块。
4.2 四类 block 类型
| Block 类型 | 作用 | 例子 |
|---|---|---|
| Semantic Block | 表达目标语义或类别名称 | “red car”, “submit button” |
| Box Block | 表示边界框坐标 | <box> x1 y1 x2 y2 </box> |
| Negative Block | 明确表示目标不存在 | 查询对象不在图中 |
| End Block | 结束生成 | 输出序列终止 |
这套 block 设计让模型输出既能覆盖开放词汇语义,也能表达目标不存在和序列结束,适合多目标、多类别、开放指令下的统一定位。
4.3 数据引擎:LocateAnything-Data
论文构建了一个大规模多域训练集:
| 数据维度 | 数量 |
|---|---|
| Unique images | 12M |
| Natural language queries | 138M |
| Annotated bounding boxes | 785M |
任务分布如下:
| 任务类型 | Query 占比 | 作用 |
|---|---|---|
| General object detection | 66.9% | 提供密集通用框监督,是空间对齐基础 |
| GUI element grounding | 16.5% | 支持软件界面和 agent 点击定位 |
| Referring comprehension | 7.3% | 将复杂自然语言描述映射到区域 |
| Text localization / OCR | 3.6% | 精确定位图中文字 |
| Layout grounding | 3.5% | 文档和场景结构理解 |
| Point-based localization | 2.2% | 细粒度点定位 |
值得注意的是,论文不仅追求数据量,还在 Stage-2 强化了 dense object 场景,例如 MOT20Det、SKU110K 等多目标图片,以提升模型在拥挤场景中的鲁棒性。
4.4 训练流程
训练分为“世界知识注入”和“检测定位增强”两个大阶段,细分为四个阶段:
| 阶段 | 目标 | 数据 | 关键配置 |
|---|---|---|---|
| Stage 1 | World Knowledge Injection | Caption | 64 GPUs, 2K steps, 只训练 MLP |
| Stage 2 | World Knowledge Injection | General VQA | 256 GPUs, 20K steps, 全量训练 |
| Stage 3 | Detection & Grounding Enhancement | 138M detection/grounding queries | 256 GPUs, 25K steps |
| Stage 4 | Dense Enhancement | 20% previous + dense data | 256 GPUs, 5K steps |
这个流程说明 PBD 并不是孤立结构技巧,它依赖一个已经具备通用视觉语言能力的 base VLM,再通过大规模定位数据和结构化输出目标把模型推向高精度 grounding。
5. 关键图表与公式解读
5.1 Teaser 图:问题与方法的最短解释
论文 teaser 上半部分展示 LocateAnything 支持多种定位任务:文档理解、GUI grounding、密集检测、OCR 定位等。下半部分对比三种坐标生成方式:
| 方法 | 输出方式 | 问题 |
|---|---|---|
| Textual Digit Decoding | 把 1024 拆成 1,0,2,4 | token 数量最多,延迟最高 |
| Quantized Coordinate Decoding | 逐个生成量化坐标 token | 比文本数字更紧凑,但仍是 serial |
| Parallel Box Decoding | 一次预测完整几何单元 | 最符合 box 的结构,吞吐最高 |
图中的核心信息是:LocateAnything 并不是把检测 head 接到 VLM 后面,而是在 VLM 的生成空间里重新定义“一个可生成单元”是什么。
5.2 Architecture 图:固定长度 block 让并行变得可训练
Architecture 图强调四个功能块:Semantic、Box、Negative、End。固定长度 L = 6 的设计看似普通,但它解决了一个训练工程难题:并行预测需要规则张量形状,box block 固定长度后,MTP 的 block 内 mask、bidirectional attention、KV cache 截断都可以稳定实现。
如果没有固定 block 结构,普通 MTP 容易在类别名称、结构 token、坐标 token 之间任意切片,导致模型学习到“半个 box + 半个类别”的错误条件分布。
5.3 Attention Mask 图:为什么双流不会泄露答案
Attention mask 图可以理解为三条规则:
flowchart TB
C[Shared Context 图像与查询] --> N[NTP Stream]
C --> M[MTP Block Stream]
N --> N2[标准因果生成]
M --> M1[跨 block 因果]
M --> M2[block 内双向]
N -.禁止访问.-> M
这保证了:
- NTP stream 仍像普通语言模型一样训练,不被 block 答案污染。
- MTP stream 可以看历史 block,但不能看未来 block。
- 同一 box 内的坐标可以相互通信,学习几何耦合。
5.4 Corrected NTP Re-decoding 图:只修坏块,不牺牲整体速度
Corrected NTP Re-decoding 图展示了 Hybrid Mode 的核心逻辑。模型默认用 PBD 快速生成;一旦检测到格式异常或坐标分布异常,就丢弃当前 block,退回最后一个可靠 prefix,用 NTP 修复该 block,然后继续 PBD。
这比“全程 NTP”快,也比“全程 MTP”稳。它体现了一个实用系统原则:对不确定局部付出精度成本,而不是让整个序列都进入慢路径。
6. 实验设计与主要结果
6.1 评估任务和指标
论文覆盖的任务范围很广:
- General object detection:COCO、LVIS
- Dense object detection:Dense200、VisDrone
- GUI grounding:ScreenSpot-Pro
- Layout grounding:DocLayNet、M6Doc
- OCR/text localization:TotalText
- Referring expression comprehension:HumanRef、RefCOCOg
- Pointing:COCO、LVIS、Dense200、VisDrone、HumanRef、RefCOCOg
主要指标是 F1,并在 box-based 任务中报告 IoU=0.5、IoU=0.95 和 IoU threshold 平均值。吞吐用 BPS(Boxes Per Second),在单张 NVIDIA H100、batch size 1 下测量。
6.2 多目标检测结果
| Benchmark | LocateAnything-3B | Rex-Omni-3B | 关键差异 |
|---|---|---|---|
| LVIS Mean F1 | 50.7 | 46.9 | +3.8 |
| LVIS F1@IoU 0.95 | 31.1 | 20.7 | 高精度框显著提升 |
| COCO Mean F1 | 54.7 | 52.9 | +1.8 |
| Dense200 Mean F1 | 58.7 | 58.3 | 略优 |
| VisDrone Mean F1 | 39.9 | 35.8 | +4.1 |
最值得关注的是 LVIS IoU=0.95 的提升。高 IoU 对框边界极其敏感,说明 PBD 不只是提升了速度,也确实改善了几何一致性和边界质量。
6.3 GUI grounding 结果
在 ScreenSpot-Pro 上,LocateAnything-3B 达到 60.3 Avg,超过 GUI-Owl-32B 的 58.0,也超过 Qwen3-VL-30B-A3B 的 53.7。更关键的是,它在 icon 类查询上优势明显,例如:
| 子任务 | LocateAnything-3B | 对比亮点 |
|---|---|---|
| Dev Icon | 50.3 | 高于 GUI-Owl-32B 的 39.3 |
| Creative Icon | 46.9 | 高于 ScaleCUA-3B 的 42.9 |
| Science Icon | 58.2 | 显著高于其他方法 |
| Office Icon | 69.8 | 显著高于 UI-Venus-1.5-2B 的 47.2 |
这说明大规模 GUI grounding 数据和 PBD 对小图标、高密度 UI 元素的定位很有效,直接服务于桌面/移动 agent 点击任务。
6.4 文档布局与 OCR
| Benchmark | LocateAnything-3B Mean F1 | Rex-Omni-3B Mean F1 | 说明 |
|---|---|---|---|
| DocLayNet | 76.8 | 70.7 | 接近专用 DocLayout-YOLO 的 81.1 |
| M6Doc | 70.1 | 55.6 | 大幅领先 |
| TotalText | 43.3 | 40.6 | OCR 定位更强 |
文档和 OCR 任务通常包含细长文本框、密集布局、不同字体和页面结构,对框边界要求高。LocateAnything 在这些任务上领先,进一步支持论文关于“结构对齐输出提升高精度定位”的主张。
6.5 Referring 和 pointing
Referring expression comprehension 结果显示,LocateAnything 在 HumanRef Mean F1 达到 78.7,在 RefCOCOg val/test Mean F1 达到 76.7 / 77.6,处于最强模型梯队。Pointing 任务上提升更明显:
| Pointing Benchmark | LocateAnything-3B | Rex-Omni-3B |
|---|---|---|
| COCO F1@Point | 83.9 | 80.5 |
| LVIS F1@Point | 76.6 | 70.8 |
| Dense200 F1@Point | 87.6 | 82.5 |
| VisDrone F1@Point | 60.4 | 58.9 |
| RefCOCOg val F1@Point | 91.3 | 84.7 |
| RefCOCOg test F1@Point | 91.0 | 85.1 |
点定位比框定位约束更弱,但在 agent 点击、机器人操作、界面导航中非常实用。
6.6 吞吐与消融实验
消融实验在 COCO 上隔离 PBD 的结构贡献。
| 方法 | Throughput | Mean F1 | 解读 |
|---|---|---|---|
| Textual NTP | 1.3 BPS | 49.1 | 最慢,坐标拆成文本数字 |
| Quantized NTP | 3.9 BPS | 50.1 | 更快但仍串行 |
| PBD Slow | 3.9 BPS | 52.1 | 结构表示本身提升精度 |
| PBD Fast | 16.9 BPS | 49.6 | 极快但复杂场景有误差 |
| PBD Hybrid | 13.2 BPS | 51.6 | 保留大部分速度并接近 Slow 精度 |
MTP formulation 消融也很关键:
| MTP 方法 | Throughput | Mean F1 |
|---|---|---|
| SDLM-B6 | 5.5 BPS | 46.1 |
| Block Diff-B6 | 4.7 BPS | 44.8 |
| PBD Fast | 16.9 BPS | 49.6 |
这说明性能提升并不是“预测多个 token”自然带来的,而是来自 box-aligned MTP。
7. 与相关工作的区别
7.1 与传统检测器
传统检测器如 Faster R-CNN、DETR、DINO、Grounding DINO 通常具有强检测能力,但接口更专用。LocateAnything 的优势是统一自然语言接口,可以覆盖 GUI、OCR、layout、referring、pointing 等多类任务;劣势是仍依赖 VLM 生成式解码,绝对检测性能在某些 closed-set COCO 指标上仍不一定超过强专用检测器。
7.2 与 Rex-Omni
Rex-Omni 是最直接对比对象,同样面向统一 detection/grounding。LocateAnything 的主要区别是输出范式:Rex-Omni 仍以量化坐标 token 为主,LocateAnything 把完整 box 作为并行块。因此 LocateAnything 在速度和高 IoU 边界质量上更强。
7.3 与普通 MTP / diffusion LLM
普通 MTP、Block Diffusion、SDLM 等方法解决的是通用 token 序列的并行生成问题。LocateAnything 的贡献是把并行生成与视觉定位结构绑定起来:block 的边界就是 box 的边界。这是从“通用语言加速”到“任务结构加速”的迁移。
8. 局限性与未来工作
论文明确指出,目前模型主要依赖 supervised fine-tuning,未来可以引入 reinforcement learning 来进一步优化 block-level decoding policy,降低 fallback 频率,并提升复杂密集/长尾场景的探索能力。
从工程和研究角度,还可以补充几个潜在局限:
- 数据规模依赖强。 PBD 的结构设计很关键,但最终性能也依赖 138M query 的大规模数据引擎。较小团队复现完整能力的成本较高。
- Hybrid trigger 仍是启发式。
top-1 probability < 0.7和 top-5 坐标跨度阈值80是否在所有分布上最优,需要更多跨域验证。 - 多边形、mask、3D box 尚未统一。 当前重点是 box 和 point。更复杂的 segmentation mask、多边形、3D grounding 可能需要新的原子块设计。
- 生成式检测仍有稳定性风险。 即使有 fallback,VLM 输出结构 token 仍可能在极端长序列、异常图像、低质 OCR 或罕见类别下失效。
- 吞吐指标依赖硬件和实现。 论文在 H100 上报告 BPS;端侧设备、低显存 GPU 或高并发服务中的表现仍需实际 benchmark。
9. 实际应用场景与潜在影响
9.1 GUI agent 和移动端/桌面自动化
ScreenSpot-Pro 上的表现说明 LocateAnything 对图标、按钮、菜单、窗口组件等 UI 元素有强定位能力。对于 GUI agent,定位延迟直接影响点击链路速度;PBD 的并行输出可降低多元素页面扫描成本。
9.2 机器人与 embodied AI
机器人需要把自然语言指令落到物理空间中的对象或区域,例如“抓起左边第二个红色杯子”。Fast/Hybrid Mode 的速度-精度平衡适合实时感知环路。
9.3 自动数据标注
在高质量标注流水线中,可以用 Slow Mode 或 Hybrid Mode 为目标检测、OCR、layout 数据生成初始标注,再由人工或校验模型复核。论文中的高 IoU 提升对标注质量尤其重要。
9.4 文档理解与 RPA
发票、表单、合同、网页截图等场景需要定位文本块、表格、按钮和布局区域。LocateAnything 将 OCR、layout、GUI grounding 放到同一框架下,有助于构建统一文档/界面感知层。
9.5 多模态 RAG 与信息抽取
如果多模态 RAG 系统需要引用图片或 PDF 中的精确区域,PBD 式 grounding 可以把“答案来自哪里”以坐标形式返回,提高可解释性和可审计性。
10. 结论:这篇论文最值得带走的三点
- 输出结构应该尊重任务结构。 Bounding box 是二维几何对象,不是普通一维 token 流。PBD 的核心价值在于让生成单元和真实结构对齐。
- 并行解码必须和可靠性机制配套。 Fast Mode 给速度,Slow Mode 给稳定性,Hybrid Mode 用局部回退把两者结合起来,是更接近生产系统的设计。
- 高质量 grounding 是 agent 基础设施。 GUI、机器人、文档、OCR、检测等任务都需要把语言意图落到空间位置。LocateAnything 展示了 VLM grounding 可以同时向“统一接口、低延迟、高精度”推进。
参考资料
- Hugging Face Papers: LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding
- arXiv: arXiv:2605.27365
- PDF: https://arxiv.org/pdf/2605.27365
- Project Page: NVIDIA Research - LocateAnything
- Model: nvidia/LocateAnything-3B
- Demo: nvidia/LocateAnything Space