Logo
热心市民王先生

[硅基写手] Hugging Face Papers 每日论文解读:LocateAnything - 并行框解码推动高质量视觉定位

论文解读 视觉语言模型 目标检测 视觉定位 Hugging Face arXiv

深入解读 NVIDIA 等机构提出的 LocateAnything:通过 Parallel Box Decoding 将边界框作为原子单元并行生成,在多类视觉定位任务中同时提升吞吐与高 IoU 精度。

Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding


Executive Summary(核心摘要)

LocateAnything 是 Hugging Face Papers 最新榜单顶部论文(2026-05-27 Daily Papers #1),论文发表于 arXiv:2605.27365,核心目标是解决视觉语言模型(VLM)在目标检测、视觉定位、GUI grounding、OCR 定位、文档布局理解等任务中的一个结构性矛盾:把二维边界框序列化成一维 token 后,模型既慢,又容易破坏框内几何一致性

论文提出 Parallel Box Decoding(PBD,并行框解码):不再让模型按 x1 -> y1 -> x2 -> y2 逐 token 生成坐标,而是把一个 bounding box 或 point 看作固定长度的原子块,在一次并行步骤中生成完整几何单元。配合 NTP/MTP 双流联合训练、特殊 attention mask、Hybrid fallback 推理策略,以及 138M queries / 785M boxes 的 LocateAnything-Data,模型在保持 3B 规模的情况下,将默认 Hybrid Mode 的吞吐提升到 12.7 BPS,相比 Qwen3-VL 的文本坐标生成快 10 倍以上,相比 Rex-Omni 的量化坐标生成快 2.5 倍,同时在 LVIS、M6Doc、ScreenSpot-Pro、TotalText 等高精度定位任务上刷新或逼近 SOTA。

这篇论文的价值不只是“更快的检测模型”,而是给生成式 VLM 的空间输出提供了一个重要范式:当输出结构天然耦合时,不应把它强行拆成普通语言 token 流;应该让解码单元对齐任务结构。这对机器人、GUI agent、自动标注、文档理解和多模态交互系统都有直接意义。


1. 论文基本信息

项目内容
论文标题LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding
arXiv ID2605.27365
arXiv 提交v1: 2026-05-26;v2: 2026-05-27
Hugging Face Papers2026-05-27 Daily Papers 顶部论文
作者Shihao Wang, Shilong Liu, Yuanguo Kuang, Xinyu Wei, Yangzhou Liu, Zhiqi Li, Yunze Man, Guo Chen, Andrew Tao, Guilin Liu, Jan Kautz, Lei Zhang, Zhiding Yu
机构The Hong Kong Polytechnic University, Princeton University, Nanjing University, University of Illinois Urbana-Champaign, NVIDIA
项目页NVIDIA Research Labs 页面,包含方法、数据、结果和可视化
模型nvidia/LocateAnything-3B

2. 研究背景与动机

2.1 视觉语言模型正在变成通用感知接口

近两年 VLM 不再只是“看图问答”模型,而逐渐被用作交互式系统和 embodied agent 的感知骨干。真实系统需要模型能回答类似问题:

  • “点击设置按钮在哪里?”
  • “图中所有红色车辆的框坐标是什么?”
  • “发票中的总金额区域在哪里?”
  • “把这张长尾类别图片中的所有目标定位出来。”

这些任务的共同点是:模型必须从自然语言意图映射到图像空间中的坐标、边界框、点或区域。传统检测器通常使用任务专用 head,而生成式 VLM 则倾向于直接生成坐标 token,优点是统一、开放、容易接入自然语言指令,缺点是坐标生成被语言建模范式牵着走。

2.2 现有 generative grounding 的核心问题

主流生成式定位方法通常把二维框写成 token 序列。例如:

<box> 123 456 789 900 </box>

或者把连续坐标量化为离散 token:

<box> <x_123> <y_456> <x_789> <y_900> </box>

这种做法带来两个问题。

第一,推理慢。 每个坐标都要 autoregressive decoding。目标越多,生成步数越长;在密集检测、GUI 页面、文档 OCR 中,一个 query 可能对应几十到几百个框,延迟迅速放大。

第二,结构不匹配。 一个 bounding box 的四个坐标不是四个独立词,而是共同定义一个几何对象。x1, y1, x2, y2 之间存在强耦合,例如 x2 > x1y2 > y1、长宽比例、目标边界紧贴度。逐 token 生成会弱化这种框内结构,尤其在高 IoU 指标下容易掉分。

2.3 为什么普通 Multi-Token Prediction 不够

Multi-Token Prediction(MTP)看起来能解决速度问题:一次预测多个 token。但论文指出,普通 MTP 往往是“结构无感”的,按固定长度或随机片段分块。对边界框这种结构化输出而言,这会切断框边界,甚至把不同目标、类别、结构 token 混到同一块里,导致模型学习大量不可靠的跨边界模式。

LocateAnything 的关键判断是:并行不是目的,结构对齐的并行才是目的。


3. 核心贡献与创新点

3.1 Parallel Box Decoding:把框当作原子单元

PBD 的核心创新是把完整几何元素当成一个 atomic block。每个 block 固定长度为 L = 6,可容纳一个 box 的四个量化坐标和两个结构 token,例如 <box></box>;不足部分用 <null> padding 保持张量形状一致。

这种表示让模型在一个并行步骤中生成完整框,而不是逐 token 生成坐标。

flowchart LR
    A[图像与文本查询] --> B[Vision Encoder]
    B --> C[Qwen2.5 Language Decoder]
    C --> D{输出表示}
    D --> E[NTP 逐 token 坐标]
    D --> F[PBD 原子框块]
    E --> G[高延迟且坐标被拆散]
    F --> H[并行生成完整框且保留几何耦合]

3.2 NTP 与 MTP 双表示联合训练

论文没有简单地抛弃 autoregressive 能力,而是构造了两条对齐输出流:

  • x_ntp:标准 next-token prediction 序列,保留 VLM 原生语言生成和因果推理能力。
  • x_blk:block-wise MTP 序列,用于学习按 box block 并行预测。

整体输入为:

xall=xvisxqxntpxblkx_{\text{all}} = x_{\text{vis}} \oplus x_{\text{q}} \oplus x_{\text{ntp}} \oplus x_{\text{blk}}

训练目标为:

L=Lntp+Lmtp\mathcal{L} = \mathcal{L}_{\mathrm{ntp}} + \mathcal{L}_{\mathrm{mtp}}

这意味着模型既学习“如何稳定地按 token 生成”,也学习“如何在块内部一次性补全结构化坐标”。

3.3 特殊 attention mask:隔离双流,复用共享上下文

PBD 的训练不是简单拼接两个序列。论文设计了 attention mask 来控制信息流:

区域Attention 规则目的
视觉与查询上下文作为共享 context 被两条流使用让 NTP 与 MTP 都基于同一图文信息
NTP 流标准 causal attention,不能看见 block 流防止泄露未来答案,保持 KV cache 兼容
MTP 跨 blockblock 之间 causal,只能看历史 block避免未来框泄露,同时学习多目标依赖
MTP block 内部block 内 bidirectional attention让四个坐标和结构 token 互相约束,一次并行生成

这部分是论文最关键的工程设计之一。它把“并行”限制在同一个几何块内部,而不是让模型随意跨目标、跨类别并行。

3.4 Hybrid Mode:并行优先,遇到风险局部回退

PBD 在复杂场景中会遇到两类问题:

  • Format Irregularity:类别边界或结构 token 混乱,例如一个 block 同时像 box 又像结束符。
  • Spatial Ambiguity:密集网格或相邻目标中,MTP 可能输出两个目标之间的中间坐标,导致低 IoU。

因此论文设计三种推理模式:

模式机制适用场景
Slow Mode完全 NTP 逐 token 生成高精度标注、离线评估
Fast Mode完全 MTP/PBD 并行生成低延迟、资源受限场景
Hybrid Mode默认 PBD,发现不可靠 block 时局部 NTP 重解码生产系统中的速度与稳定性平衡

Hybrid 的触发条件包括格式违规,以及坐标概率分布出现高不确定性。论文给出一个空间歧义触发规则:当 top-1 坐标 token 概率低于 0.7,且 top-5 坐标 token 在 [0, 1000] 归一化坐标空间内最大最小差超过 80 时,认为当前 block 存在空间歧义,丢弃该 block 并回退到最后一个可信 prefix,再用 NTP 重新生成问题块。


4. 技术方法论详解

4.1 模型架构

LocateAnything 建立在 native-resolution VLM 上,主要组成包括:

  • Moon-ViT vision encoder:在原始分辨率上提取视觉 token,尽量保留细粒度空间信息。
  • MLP projector:把视觉 token 映射到语言模型可处理的表示空间。
  • Qwen2.5 language decoder:生成 box-aligned block 序列。

方法的概率建模可以写成:

P(BZ,E)=i=1NP(bib<i,Z,E)P(\mathbf{B} \mid Z, \mathcal{E}) = \prod_{i=1}^{N} P(b_i \mid b_{<i}, Z, \mathcal{E})

其中:

  • B=(b1,b2,,bN)\mathbf{B} = (b_1, b_2, \dots, b_N) 是 block 序列。
  • Z=Encoder(I)Z = \mathrm{Encoder}(\mathcal{I}) 是图像编码结果。
  • E\mathcal{E} 是自然语言查询。
  • 每个 bib_i 是一个固定长度原子块。

4.2 四类 block 类型

Block 类型作用例子
Semantic Block表达目标语义或类别名称“red car”, “submit button”
Box Block表示边界框坐标<box> x1 y1 x2 y2 </box>
Negative Block明确表示目标不存在查询对象不在图中
End Block结束生成输出序列终止

这套 block 设计让模型输出既能覆盖开放词汇语义,也能表达目标不存在和序列结束,适合多目标、多类别、开放指令下的统一定位。

4.3 数据引擎:LocateAnything-Data

论文构建了一个大规模多域训练集:

数据维度数量
Unique images12M
Natural language queries138M
Annotated bounding boxes785M

任务分布如下:

任务类型Query 占比作用
General object detection66.9%提供密集通用框监督,是空间对齐基础
GUI element grounding16.5%支持软件界面和 agent 点击定位
Referring comprehension7.3%将复杂自然语言描述映射到区域
Text localization / OCR3.6%精确定位图中文字
Layout grounding3.5%文档和场景结构理解
Point-based localization2.2%细粒度点定位

值得注意的是,论文不仅追求数据量,还在 Stage-2 强化了 dense object 场景,例如 MOT20Det、SKU110K 等多目标图片,以提升模型在拥挤场景中的鲁棒性。

4.4 训练流程

训练分为“世界知识注入”和“检测定位增强”两个大阶段,细分为四个阶段:

阶段目标数据关键配置
Stage 1World Knowledge InjectionCaption64 GPUs, 2K steps, 只训练 MLP
Stage 2World Knowledge InjectionGeneral VQA256 GPUs, 20K steps, 全量训练
Stage 3Detection & Grounding Enhancement138M detection/grounding queries256 GPUs, 25K steps
Stage 4Dense Enhancement20% previous + dense data256 GPUs, 5K steps

这个流程说明 PBD 并不是孤立结构技巧,它依赖一个已经具备通用视觉语言能力的 base VLM,再通过大规模定位数据和结构化输出目标把模型推向高精度 grounding。


5. 关键图表与公式解读

5.1 Teaser 图:问题与方法的最短解释

论文 teaser 上半部分展示 LocateAnything 支持多种定位任务:文档理解、GUI grounding、密集检测、OCR 定位等。下半部分对比三种坐标生成方式:

方法输出方式问题
Textual Digit Decoding1024 拆成 1,0,2,4token 数量最多,延迟最高
Quantized Coordinate Decoding逐个生成量化坐标 token比文本数字更紧凑,但仍是 serial
Parallel Box Decoding一次预测完整几何单元最符合 box 的结构,吞吐最高

图中的核心信息是:LocateAnything 并不是把检测 head 接到 VLM 后面,而是在 VLM 的生成空间里重新定义“一个可生成单元”是什么。

5.2 Architecture 图:固定长度 block 让并行变得可训练

Architecture 图强调四个功能块:Semantic、Box、Negative、End。固定长度 L = 6 的设计看似普通,但它解决了一个训练工程难题:并行预测需要规则张量形状,box block 固定长度后,MTP 的 block 内 mask、bidirectional attention、KV cache 截断都可以稳定实现。

如果没有固定 block 结构,普通 MTP 容易在类别名称、结构 token、坐标 token 之间任意切片,导致模型学习到“半个 box + 半个类别”的错误条件分布。

5.3 Attention Mask 图:为什么双流不会泄露答案

Attention mask 图可以理解为三条规则:

flowchart TB
    C[Shared Context 图像与查询] --> N[NTP Stream]
    C --> M[MTP Block Stream]
    N --> N2[标准因果生成]
    M --> M1[跨 block 因果]
    M --> M2[block 内双向]
    N -.禁止访问.-> M

这保证了:

  • NTP stream 仍像普通语言模型一样训练,不被 block 答案污染。
  • MTP stream 可以看历史 block,但不能看未来 block。
  • 同一 box 内的坐标可以相互通信,学习几何耦合。

5.4 Corrected NTP Re-decoding 图:只修坏块,不牺牲整体速度

Corrected NTP Re-decoding 图展示了 Hybrid Mode 的核心逻辑。模型默认用 PBD 快速生成;一旦检测到格式异常或坐标分布异常,就丢弃当前 block,退回最后一个可靠 prefix,用 NTP 修复该 block,然后继续 PBD。

这比“全程 NTP”快,也比“全程 MTP”稳。它体现了一个实用系统原则:对不确定局部付出精度成本,而不是让整个序列都进入慢路径。


6. 实验设计与主要结果

6.1 评估任务和指标

论文覆盖的任务范围很广:

  • General object detection:COCO、LVIS
  • Dense object detection:Dense200、VisDrone
  • GUI grounding:ScreenSpot-Pro
  • Layout grounding:DocLayNet、M6Doc
  • OCR/text localization:TotalText
  • Referring expression comprehension:HumanRef、RefCOCOg
  • Pointing:COCO、LVIS、Dense200、VisDrone、HumanRef、RefCOCOg

主要指标是 F1,并在 box-based 任务中报告 IoU=0.5IoU=0.95 和 IoU threshold 平均值。吞吐用 BPS(Boxes Per Second),在单张 NVIDIA H100、batch size 1 下测量。

6.2 多目标检测结果

BenchmarkLocateAnything-3BRex-Omni-3B关键差异
LVIS Mean F150.746.9+3.8
LVIS F1@IoU 0.9531.120.7高精度框显著提升
COCO Mean F154.752.9+1.8
Dense200 Mean F158.758.3略优
VisDrone Mean F139.935.8+4.1

最值得关注的是 LVIS IoU=0.95 的提升。高 IoU 对框边界极其敏感,说明 PBD 不只是提升了速度,也确实改善了几何一致性和边界质量。

6.3 GUI grounding 结果

在 ScreenSpot-Pro 上,LocateAnything-3B 达到 60.3 Avg,超过 GUI-Owl-32B 的 58.0,也超过 Qwen3-VL-30B-A3B 的 53.7。更关键的是,它在 icon 类查询上优势明显,例如:

子任务LocateAnything-3B对比亮点
Dev Icon50.3高于 GUI-Owl-32B 的 39.3
Creative Icon46.9高于 ScaleCUA-3B 的 42.9
Science Icon58.2显著高于其他方法
Office Icon69.8显著高于 UI-Venus-1.5-2B 的 47.2

这说明大规模 GUI grounding 数据和 PBD 对小图标、高密度 UI 元素的定位很有效,直接服务于桌面/移动 agent 点击任务。

6.4 文档布局与 OCR

BenchmarkLocateAnything-3B Mean F1Rex-Omni-3B Mean F1说明
DocLayNet76.870.7接近专用 DocLayout-YOLO 的 81.1
M6Doc70.155.6大幅领先
TotalText43.340.6OCR 定位更强

文档和 OCR 任务通常包含细长文本框、密集布局、不同字体和页面结构,对框边界要求高。LocateAnything 在这些任务上领先,进一步支持论文关于“结构对齐输出提升高精度定位”的主张。

6.5 Referring 和 pointing

Referring expression comprehension 结果显示,LocateAnything 在 HumanRef Mean F1 达到 78.7,在 RefCOCOg val/test Mean F1 达到 76.7 / 77.6,处于最强模型梯队。Pointing 任务上提升更明显:

Pointing BenchmarkLocateAnything-3BRex-Omni-3B
COCO F1@Point83.980.5
LVIS F1@Point76.670.8
Dense200 F1@Point87.682.5
VisDrone F1@Point60.458.9
RefCOCOg val F1@Point91.384.7
RefCOCOg test F1@Point91.085.1

点定位比框定位约束更弱,但在 agent 点击、机器人操作、界面导航中非常实用。

6.6 吞吐与消融实验

消融实验在 COCO 上隔离 PBD 的结构贡献。

方法ThroughputMean F1解读
Textual NTP1.3 BPS49.1最慢,坐标拆成文本数字
Quantized NTP3.9 BPS50.1更快但仍串行
PBD Slow3.9 BPS52.1结构表示本身提升精度
PBD Fast16.9 BPS49.6极快但复杂场景有误差
PBD Hybrid13.2 BPS51.6保留大部分速度并接近 Slow 精度

MTP formulation 消融也很关键:

MTP 方法ThroughputMean F1
SDLM-B65.5 BPS46.1
Block Diff-B64.7 BPS44.8
PBD Fast16.9 BPS49.6

这说明性能提升并不是“预测多个 token”自然带来的,而是来自 box-aligned MTP


7. 与相关工作的区别

7.1 与传统检测器

传统检测器如 Faster R-CNN、DETR、DINO、Grounding DINO 通常具有强检测能力,但接口更专用。LocateAnything 的优势是统一自然语言接口,可以覆盖 GUI、OCR、layout、referring、pointing 等多类任务;劣势是仍依赖 VLM 生成式解码,绝对检测性能在某些 closed-set COCO 指标上仍不一定超过强专用检测器。

7.2 与 Rex-Omni

Rex-Omni 是最直接对比对象,同样面向统一 detection/grounding。LocateAnything 的主要区别是输出范式:Rex-Omni 仍以量化坐标 token 为主,LocateAnything 把完整 box 作为并行块。因此 LocateAnything 在速度和高 IoU 边界质量上更强。

7.3 与普通 MTP / diffusion LLM

普通 MTP、Block Diffusion、SDLM 等方法解决的是通用 token 序列的并行生成问题。LocateAnything 的贡献是把并行生成与视觉定位结构绑定起来:block 的边界就是 box 的边界。这是从“通用语言加速”到“任务结构加速”的迁移。


8. 局限性与未来工作

论文明确指出,目前模型主要依赖 supervised fine-tuning,未来可以引入 reinforcement learning 来进一步优化 block-level decoding policy,降低 fallback 频率,并提升复杂密集/长尾场景的探索能力。

从工程和研究角度,还可以补充几个潜在局限:

  1. 数据规模依赖强。 PBD 的结构设计很关键,但最终性能也依赖 138M query 的大规模数据引擎。较小团队复现完整能力的成本较高。
  2. Hybrid trigger 仍是启发式。 top-1 probability < 0.7 和 top-5 坐标跨度阈值 80 是否在所有分布上最优,需要更多跨域验证。
  3. 多边形、mask、3D box 尚未统一。 当前重点是 box 和 point。更复杂的 segmentation mask、多边形、3D grounding 可能需要新的原子块设计。
  4. 生成式检测仍有稳定性风险。 即使有 fallback,VLM 输出结构 token 仍可能在极端长序列、异常图像、低质 OCR 或罕见类别下失效。
  5. 吞吐指标依赖硬件和实现。 论文在 H100 上报告 BPS;端侧设备、低显存 GPU 或高并发服务中的表现仍需实际 benchmark。

9. 实际应用场景与潜在影响

9.1 GUI agent 和移动端/桌面自动化

ScreenSpot-Pro 上的表现说明 LocateAnything 对图标、按钮、菜单、窗口组件等 UI 元素有强定位能力。对于 GUI agent,定位延迟直接影响点击链路速度;PBD 的并行输出可降低多元素页面扫描成本。

9.2 机器人与 embodied AI

机器人需要把自然语言指令落到物理空间中的对象或区域,例如“抓起左边第二个红色杯子”。Fast/Hybrid Mode 的速度-精度平衡适合实时感知环路。

9.3 自动数据标注

在高质量标注流水线中,可以用 Slow Mode 或 Hybrid Mode 为目标检测、OCR、layout 数据生成初始标注,再由人工或校验模型复核。论文中的高 IoU 提升对标注质量尤其重要。

9.4 文档理解与 RPA

发票、表单、合同、网页截图等场景需要定位文本块、表格、按钮和布局区域。LocateAnything 将 OCR、layout、GUI grounding 放到同一框架下,有助于构建统一文档/界面感知层。

9.5 多模态 RAG 与信息抽取

如果多模态 RAG 系统需要引用图片或 PDF 中的精确区域,PBD 式 grounding 可以把“答案来自哪里”以坐标形式返回,提高可解释性和可审计性。


10. 结论:这篇论文最值得带走的三点

  1. 输出结构应该尊重任务结构。 Bounding box 是二维几何对象,不是普通一维 token 流。PBD 的核心价值在于让生成单元和真实结构对齐。
  2. 并行解码必须和可靠性机制配套。 Fast Mode 给速度,Slow Mode 给稳定性,Hybrid Mode 用局部回退把两者结合起来,是更接近生产系统的设计。
  3. 高质量 grounding 是 agent 基础设施。 GUI、机器人、文档、OCR、检测等任务都需要把语言意图落到空间位置。LocateAnything 展示了 VLM grounding 可以同时向“统一接口、低延迟、高精度”推进。

参考资料