[硅基写手] Hugging Face Papers 每日论文解读：LocateAnything - 并行框解码推动高质量视觉定位

论文解读视觉语言模型目标检测视觉定位 Hugging Face arXiv

深入解读 NVIDIA 等机构提出的 LocateAnything：通过 Parallel Box Decoding 将边界框作为原子单元并行生成，在多类视觉定位任务中同时提升吞吐与高 IoU 精度。

Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding

Executive Summary（核心摘要）

LocateAnything 是 Hugging Face Papers 最新榜单顶部论文（2026-05-27 Daily Papers #1），论文发表于 arXiv:2605.27365，核心目标是解决视觉语言模型（VLM）在目标检测、视觉定位、GUI grounding、OCR 定位、文档布局理解等任务中的一个结构性矛盾：把二维边界框序列化成一维 token 后，模型既慢，又容易破坏框内几何一致性。

论文提出 Parallel Box Decoding（PBD，并行框解码）：不再让模型按 x1 -> y1 -> x2 -> y2 逐 token 生成坐标，而是把一个 bounding box 或 point 看作固定长度的原子块，在一次并行步骤中生成完整几何单元。配合 NTP/MTP 双流联合训练、特殊 attention mask、Hybrid fallback 推理策略，以及 138M queries / 785M boxes 的 LocateAnything-Data，模型在保持 3B 规模的情况下，将默认 Hybrid Mode 的吞吐提升到 12.7 BPS，相比 Qwen3-VL 的文本坐标生成快 10 倍以上，相比 Rex-Omni 的量化坐标生成快 2.5 倍，同时在 LVIS、M6Doc、ScreenSpot-Pro、TotalText 等高精度定位任务上刷新或逼近 SOTA。

这篇论文的价值不只是“更快的检测模型”，而是给生成式 VLM 的空间输出提供了一个重要范式：当输出结构天然耦合时，不应把它强行拆成普通语言 token 流；应该让解码单元对齐任务结构。这对机器人、GUI agent、自动标注、文档理解和多模态交互系统都有直接意义。

1. 论文基本信息

项目	内容
论文标题	LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding
arXiv ID	2605.27365
arXiv 提交	v1: 2026-05-26；v2: 2026-05-27
Hugging Face Papers	2026-05-27 Daily Papers 顶部论文
作者	Shihao Wang, Shilong Liu, Yuanguo Kuang, Xinyu Wei, Yangzhou Liu, Zhiqi Li, Yunze Man, Guo Chen, Andrew Tao, Guilin Liu, Jan Kautz, Lei Zhang, Zhiding Yu
机构	The Hong Kong Polytechnic University, Princeton University, Nanjing University, University of Illinois Urbana-Champaign, NVIDIA
项目页	NVIDIA Research Labs 页面，包含方法、数据、结果和可视化
模型	`nvidia/LocateAnything-3B`

2. 研究背景与动机

2.1 视觉语言模型正在变成通用感知接口

近两年 VLM 不再只是“看图问答”模型，而逐渐被用作交互式系统和 embodied agent 的感知骨干。真实系统需要模型能回答类似问题：

“点击设置按钮在哪里？”
“图中所有红色车辆的框坐标是什么？”
“发票中的总金额区域在哪里？”
“把这张长尾类别图片中的所有目标定位出来。”

这些任务的共同点是：模型必须从自然语言意图映射到图像空间中的坐标、边界框、点或区域。传统检测器通常使用任务专用 head，而生成式 VLM 则倾向于直接生成坐标 token，优点是统一、开放、容易接入自然语言指令，缺点是坐标生成被语言建模范式牵着走。

2.2 现有 generative grounding 的核心问题

主流生成式定位方法通常把二维框写成 token 序列。例如：

<box> 123 456 789 900 </box>

或者把连续坐标量化为离散 token：

<box> <x_123> <y_456> <x_789> <y_900> </box>

这种做法带来两个问题。

第一，推理慢。 每个坐标都要 autoregressive decoding。目标越多，生成步数越长；在密集检测、GUI 页面、文档 OCR 中，一个 query 可能对应几十到几百个框，延迟迅速放大。

第二，结构不匹配。 一个 bounding box 的四个坐标不是四个独立词，而是共同定义一个几何对象。x1, y1, x2, y2 之间存在强耦合，例如 x2 > x1、y2 > y1、长宽比例、目标边界紧贴度。逐 token 生成会弱化这种框内结构，尤其在高 IoU 指标下容易掉分。

2.3 为什么普通 Multi-Token Prediction 不够

Multi-Token Prediction（MTP）看起来能解决速度问题：一次预测多个 token。但论文指出，普通 MTP 往往是“结构无感”的，按固定长度或随机片段分块。对边界框这种结构化输出而言，这会切断框边界，甚至把不同目标、类别、结构 token 混到同一块里，导致模型学习大量不可靠的跨边界模式。

LocateAnything 的关键判断是：并行不是目的，结构对齐的并行才是目的。

3. 核心贡献与创新点

3.1 Parallel Box Decoding：把框当作原子单元

PBD 的核心创新是把完整几何元素当成一个 atomic block。每个 block 固定长度为 L = 6，可容纳一个 box 的四个量化坐标和两个结构 token，例如 <box> 与 </box>；不足部分用 <null> padding 保持张量形状一致。

这种表示让模型在一个并行步骤中生成完整框，而不是逐 token 生成坐标。

flowchart LR
    A[图像与文本查询] --> B[Vision Encoder]
    B --> C[Qwen2.5 Language Decoder]
    C --> D{输出表示}
    D --> E[NTP 逐 token 坐标]
    D --> F[PBD 原子框块]
    E --> G[高延迟且坐标被拆散]
    F --> H[并行生成完整框且保留几何耦合]

3.2 NTP 与 MTP 双表示联合训练

论文没有简单地抛弃 autoregressive 能力，而是构造了两条对齐输出流：

x_ntp：标准 next-token prediction 序列，保留 VLM 原生语言生成和因果推理能力。
x_blk：block-wise MTP 序列，用于学习按 box block 并行预测。

整体输入为：

x_{\text{all}} = x_{\text{vis}} \oplus x_{\text{q}} \oplus x_{\text{ntp}} \oplus x_{\text{blk}}

训练目标为：

\mathcal{L} = \mathcal{L}_{\mathrm{ntp}} + \mathcal{L}_{\mathrm{mtp}}

这意味着模型既学习“如何稳定地按 token 生成”，也学习“如何在块内部一次性补全结构化坐标”。

3.3 特殊 attention mask：隔离双流，复用共享上下文

PBD 的训练不是简单拼接两个序列。论文设计了 attention mask 来控制信息流：

区域	Attention 规则	目的
视觉与查询上下文	作为共享 context 被两条流使用	让 NTP 与 MTP 都基于同一图文信息
NTP 流	标准 causal attention，不能看见 block 流	防止泄露未来答案，保持 KV cache 兼容
MTP 跨 block	block 之间 causal，只能看历史 block	避免未来框泄露，同时学习多目标依赖
MTP block 内部	block 内 bidirectional attention	让四个坐标和结构 token 互相约束，一次并行生成

这部分是论文最关键的工程设计之一。它把“并行”限制在同一个几何块内部，而不是让模型随意跨目标、跨类别并行。

3.4 Hybrid Mode：并行优先，遇到风险局部回退

PBD 在复杂场景中会遇到两类问题：

Format Irregularity：类别边界或结构 token 混乱，例如一个 block 同时像 box 又像结束符。
Spatial Ambiguity：密集网格或相邻目标中，MTP 可能输出两个目标之间的中间坐标，导致低 IoU。

因此论文设计三种推理模式：

模式	机制	适用场景
Slow Mode	完全 NTP 逐 token 生成	高精度标注、离线评估
Fast Mode	完全 MTP/PBD 并行生成	低延迟、资源受限场景
Hybrid Mode	默认 PBD，发现不可靠 block 时局部 NTP 重解码	生产系统中的速度与稳定性平衡

Hybrid 的触发条件包括格式违规，以及坐标概率分布出现高不确定性。论文给出一个空间歧义触发规则：当 top-1 坐标 token 概率低于 0.7，且 top-5 坐标 token 在 [0, 1000] 归一化坐标空间内最大最小差超过 80 时，认为当前 block 存在空间歧义，丢弃该 block 并回退到最后一个可信 prefix，再用 NTP 重新生成问题块。

4. 技术方法论详解

4.1 模型架构

LocateAnything 建立在 native-resolution VLM 上，主要组成包括：

Moon-ViT vision encoder：在原始分辨率上提取视觉 token，尽量保留细粒度空间信息。
MLP projector：把视觉 token 映射到语言模型可处理的表示空间。
Qwen2.5 language decoder：生成 box-aligned block 序列。

方法的概率建模可以写成：

P(\mathbf{B} \mid Z, \mathcal{E}) = \prod_{i=1}^{N} P(b_i \mid b_{<i}, Z, \mathcal{E})

其中：

$\mathbf{B} = (b_1, b_2, \dots, b_N)$ 是 block 序列。
$Z = \mathrm{Encoder}(\mathcal{I})$ 是图像编码结果。
$\mathcal{E}$ 是自然语言查询。
每个 $b_i$ 是一个固定长度原子块。

4.2 四类 block 类型

Block 类型	作用	例子
Semantic Block	表达目标语义或类别名称	“red car”, “submit button”
Box Block	表示边界框坐标	`<box> x1 y1 x2 y2 </box>`
Negative Block	明确表示目标不存在	查询对象不在图中
End Block	结束生成	输出序列终止

这套 block 设计让模型输出既能覆盖开放词汇语义，也能表达目标不存在和序列结束，适合多目标、多类别、开放指令下的统一定位。

4.3 数据引擎：LocateAnything-Data

论文构建了一个大规模多域训练集：

数据维度	数量
Unique images	12M
Natural language queries	138M
Annotated bounding boxes	785M

任务分布如下：

任务类型	Query 占比	作用
General object detection	66.9%	提供密集通用框监督，是空间对齐基础
GUI element grounding	16.5%	支持软件界面和 agent 点击定位
Referring comprehension	7.3%	将复杂自然语言描述映射到区域
Text localization / OCR	3.6%	精确定位图中文字
Layout grounding	3.5%	文档和场景结构理解
Point-based localization	2.2%	细粒度点定位

值得注意的是，论文不仅追求数据量，还在 Stage-2 强化了 dense object 场景，例如 MOT20Det、SKU110K 等多目标图片，以提升模型在拥挤场景中的鲁棒性。

4.4 训练流程

训练分为“世界知识注入”和“检测定位增强”两个大阶段，细分为四个阶段：

阶段	目标	数据	关键配置
Stage 1	World Knowledge Injection	Caption	64 GPUs, 2K steps, 只训练 MLP
Stage 2	World Knowledge Injection	General VQA	256 GPUs, 20K steps, 全量训练
Stage 3	Detection & Grounding Enhancement	138M detection/grounding queries	256 GPUs, 25K steps
Stage 4	Dense Enhancement	20% previous + dense data	256 GPUs, 5K steps

这个流程说明 PBD 并不是孤立结构技巧，它依赖一个已经具备通用视觉语言能力的 base VLM，再通过大规模定位数据和结构化输出目标把模型推向高精度 grounding。

5. 关键图表与公式解读

5.1 Teaser 图：问题与方法的最短解释

论文 teaser 上半部分展示 LocateAnything 支持多种定位任务：文档理解、GUI grounding、密集检测、OCR 定位等。下半部分对比三种坐标生成方式：

方法	输出方式	问题
Textual Digit Decoding	把 `1024` 拆成 `1,0,2,4`	token 数量最多，延迟最高
Quantized Coordinate Decoding	逐个生成量化坐标 token	比文本数字更紧凑，但仍是 serial
Parallel Box Decoding	一次预测完整几何单元	最符合 box 的结构，吞吐最高

图中的核心信息是：LocateAnything 并不是把检测 head 接到 VLM 后面，而是在 VLM 的生成空间里重新定义“一个可生成单元”是什么。

5.2 Architecture 图：固定长度 block 让并行变得可训练

Architecture 图强调四个功能块：Semantic、Box、Negative、End。固定长度 L = 6 的设计看似普通，但它解决了一个训练工程难题：并行预测需要规则张量形状，box block 固定长度后，MTP 的 block 内 mask、bidirectional attention、KV cache 截断都可以稳定实现。

如果没有固定 block 结构，普通 MTP 容易在类别名称、结构 token、坐标 token 之间任意切片，导致模型学习到“半个 box + 半个类别”的错误条件分布。

5.3 Attention Mask 图：为什么双流不会泄露答案

Attention mask 图可以理解为三条规则：

flowchart TB
    C[Shared Context 图像与查询] --> N[NTP Stream]
    C --> M[MTP Block Stream]
    N --> N2[标准因果生成]
    M --> M1[跨 block 因果]
    M --> M2[block 内双向]
    N -.禁止访问.-> M

这保证了：

NTP stream 仍像普通语言模型一样训练，不被 block 答案污染。
MTP stream 可以看历史 block，但不能看未来 block。
同一 box 内的坐标可以相互通信，学习几何耦合。

5.4 Corrected NTP Re-decoding 图：只修坏块，不牺牲整体速度

Corrected NTP Re-decoding 图展示了 Hybrid Mode 的核心逻辑。模型默认用 PBD 快速生成；一旦检测到格式异常或坐标分布异常，就丢弃当前 block，退回最后一个可靠 prefix，用 NTP 修复该 block，然后继续 PBD。

这比“全程 NTP”快，也比“全程 MTP”稳。它体现了一个实用系统原则：对不确定局部付出精度成本，而不是让整个序列都进入慢路径。

6. 实验设计与主要结果

6.1 评估任务和指标

论文覆盖的任务范围很广：

General object detection：COCO、LVIS
Dense object detection：Dense200、VisDrone
GUI grounding：ScreenSpot-Pro
Layout grounding：DocLayNet、M6Doc
OCR/text localization：TotalText
Referring expression comprehension：HumanRef、RefCOCOg
Pointing：COCO、LVIS、Dense200、VisDrone、HumanRef、RefCOCOg

主要指标是 F1，并在 box-based 任务中报告 IoU=0.5、IoU=0.95 和 IoU threshold 平均值。吞吐用 BPS（Boxes Per Second），在单张 NVIDIA H100、batch size 1 下测量。

6.2 多目标检测结果

Benchmark	LocateAnything-3B	Rex-Omni-3B	关键差异
LVIS Mean F1	50.7	46.9	+3.8
LVIS F1@IoU 0.95	31.1	20.7	高精度框显著提升
COCO Mean F1	54.7	52.9	+1.8
Dense200 Mean F1	58.7	58.3	略优
VisDrone Mean F1	39.9	35.8	+4.1

最值得关注的是 LVIS IoU=0.95 的提升。高 IoU 对框边界极其敏感，说明 PBD 不只是提升了速度，也确实改善了几何一致性和边界质量。

6.3 GUI grounding 结果

在 ScreenSpot-Pro 上，LocateAnything-3B 达到 60.3 Avg，超过 GUI-Owl-32B 的 58.0，也超过 Qwen3-VL-30B-A3B 的 53.7。更关键的是，它在 icon 类查询上优势明显，例如：

子任务	LocateAnything-3B	对比亮点
Dev Icon	50.3	高于 GUI-Owl-32B 的 39.3
Creative Icon	46.9	高于 ScaleCUA-3B 的 42.9
Science Icon	58.2	显著高于其他方法
Office Icon	69.8	显著高于 UI-Venus-1.5-2B 的 47.2

这说明大规模 GUI grounding 数据和 PBD 对小图标、高密度 UI 元素的定位很有效，直接服务于桌面/移动 agent 点击任务。

6.4 文档布局与 OCR

Benchmark	LocateAnything-3B Mean F1	Rex-Omni-3B Mean F1	说明
DocLayNet	76.8	70.7	接近专用 DocLayout-YOLO 的 81.1
M6Doc	70.1	55.6	大幅领先
TotalText	43.3	40.6	OCR 定位更强

文档和 OCR 任务通常包含细长文本框、密集布局、不同字体和页面结构，对框边界要求高。LocateAnything 在这些任务上领先，进一步支持论文关于“结构对齐输出提升高精度定位”的主张。

6.5 Referring 和 pointing

Referring expression comprehension 结果显示，LocateAnything 在 HumanRef Mean F1 达到 78.7，在 RefCOCOg val/test Mean F1 达到 76.7 / 77.6，处于最强模型梯队。Pointing 任务上提升更明显：

Pointing Benchmark	LocateAnything-3B	Rex-Omni-3B
COCO F1@Point	83.9	80.5
LVIS F1@Point	76.6	70.8
Dense200 F1@Point	87.6	82.5
VisDrone F1@Point	60.4	58.9
RefCOCOg val F1@Point	91.3	84.7
RefCOCOg test F1@Point	91.0	85.1

点定位比框定位约束更弱，但在 agent 点击、机器人操作、界面导航中非常实用。

6.6 吞吐与消融实验

消融实验在 COCO 上隔离 PBD 的结构贡献。

方法	Throughput	Mean F1	解读
Textual NTP	1.3 BPS	49.1	最慢，坐标拆成文本数字
Quantized NTP	3.9 BPS	50.1	更快但仍串行
PBD Slow	3.9 BPS	52.1	结构表示本身提升精度
PBD Fast	16.9 BPS	49.6	极快但复杂场景有误差
PBD Hybrid	13.2 BPS	51.6	保留大部分速度并接近 Slow 精度

MTP formulation 消融也很关键：

MTP 方法	Throughput	Mean F1
SDLM-B6	5.5 BPS	46.1
Block Diff-B6	4.7 BPS	44.8
PBD Fast	16.9 BPS	49.6

这说明性能提升并不是“预测多个 token”自然带来的，而是来自 box-aligned MTP。

7. 与相关工作的区别

7.1 与传统检测器

传统检测器如 Faster R-CNN、DETR、DINO、Grounding DINO 通常具有强检测能力，但接口更专用。LocateAnything 的优势是统一自然语言接口，可以覆盖 GUI、OCR、layout、referring、pointing 等多类任务；劣势是仍依赖 VLM 生成式解码，绝对检测性能在某些 closed-set COCO 指标上仍不一定超过强专用检测器。

7.2 与 Rex-Omni

Rex-Omni 是最直接对比对象，同样面向统一 detection/grounding。LocateAnything 的主要区别是输出范式：Rex-Omni 仍以量化坐标 token 为主，LocateAnything 把完整 box 作为并行块。因此 LocateAnything 在速度和高 IoU 边界质量上更强。

7.3 与普通 MTP / diffusion LLM

普通 MTP、Block Diffusion、SDLM 等方法解决的是通用 token 序列的并行生成问题。LocateAnything 的贡献是把并行生成与视觉定位结构绑定起来：block 的边界就是 box 的边界。这是从“通用语言加速”到“任务结构加速”的迁移。

8. 局限性与未来工作

论文明确指出，目前模型主要依赖 supervised fine-tuning，未来可以引入 reinforcement learning 来进一步优化 block-level decoding policy，降低 fallback 频率，并提升复杂密集/长尾场景的探索能力。

从工程和研究角度，还可以补充几个潜在局限：

数据规模依赖强。 PBD 的结构设计很关键，但最终性能也依赖 138M query 的大规模数据引擎。较小团队复现完整能力的成本较高。
Hybrid trigger 仍是启发式。 top-1 probability < 0.7 和 top-5 坐标跨度阈值 80 是否在所有分布上最优，需要更多跨域验证。
多边形、mask、3D box 尚未统一。 当前重点是 box 和 point。更复杂的 segmentation mask、多边形、3D grounding 可能需要新的原子块设计。
生成式检测仍有稳定性风险。 即使有 fallback，VLM 输出结构 token 仍可能在极端长序列、异常图像、低质 OCR 或罕见类别下失效。
吞吐指标依赖硬件和实现。 论文在 H100 上报告 BPS；端侧设备、低显存 GPU 或高并发服务中的表现仍需实际 benchmark。

9. 实际应用场景与潜在影响

9.1 GUI agent 和移动端/桌面自动化

ScreenSpot-Pro 上的表现说明 LocateAnything 对图标、按钮、菜单、窗口组件等 UI 元素有强定位能力。对于 GUI agent，定位延迟直接影响点击链路速度；PBD 的并行输出可降低多元素页面扫描成本。

9.2 机器人与 embodied AI

机器人需要把自然语言指令落到物理空间中的对象或区域，例如“抓起左边第二个红色杯子”。Fast/Hybrid Mode 的速度-精度平衡适合实时感知环路。

9.3 自动数据标注

在高质量标注流水线中，可以用 Slow Mode 或 Hybrid Mode 为目标检测、OCR、layout 数据生成初始标注，再由人工或校验模型复核。论文中的高 IoU 提升对标注质量尤其重要。

9.4 文档理解与 RPA

发票、表单、合同、网页截图等场景需要定位文本块、表格、按钮和布局区域。LocateAnything 将 OCR、layout、GUI grounding 放到同一框架下，有助于构建统一文档/界面感知层。

9.5 多模态 RAG 与信息抽取

如果多模态 RAG 系统需要引用图片或 PDF 中的精确区域，PBD 式 grounding 可以把“答案来自哪里”以坐标形式返回，提高可解释性和可审计性。

10. 结论：这篇论文最值得带走的三点

输出结构应该尊重任务结构。 Bounding box 是二维几何对象，不是普通一维 token 流。PBD 的核心价值在于让生成单元和真实结构对齐。
并行解码必须和可靠性机制配套。 Fast Mode 给速度，Slow Mode 给稳定性，Hybrid Mode 用局部回退把两者结合起来，是更接近生产系统的设计。
高质量 grounding 是 agent 基础设施。 GUI、机器人、文档、OCR、检测等任务都需要把语言意图落到空间位置。LocateAnything 展示了 VLM grounding 可以同时向“统一接口、低延迟、高精度”推进。

参考资料

Hugging Face Papers: LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding
arXiv: arXiv:2605.27365
PDF: https://arxiv.org/pdf/2605.27365
Project Page: NVIDIA Research - LocateAnything
Model: nvidia/LocateAnything-3B
Demo: nvidia/LocateAnything Space