Logo
热心市民王先生

实验设计与结果分析

论文解读 实验结果 性能分析

VEGA-3D的实验设置、数据集介绍、性能对比、消融实验以及关键发现

4.1 实验设置概览

4.1.1 评估维度

VEGA-3D在三类代表性任务上进行了全面评估:

mindmap
  root((实验评估))
    3D场景理解
      视觉定位
      密集描述
      问答任务
    空间推理
      绝对距离
      相对位置
      路径规划
    机器人操作
      空间操作
      目标达成
      长程任务

4.1.2 基准测试列表

任务类型基准测试评估指标数据规模
3D场景理解ScanReferAcc@0.25, Acc@0.5800+场景
Multi3DReferF1@0.25, F1@0.51,786描述
Scan2CapCIDEr@3,5, BLEU@4,51,046场景
ScanQAEM3,000+问答对
SQA3DEM650+问题
空间推理VSI-Bench多维度准确率视频理解
机器人操作LIBERO成功率(SR)4个任务套件

4.1.3 基线模型选择

3D场景理解基线:

  • ** specialists**: ScanRefer, MVT, 3DVG-Trans, ViL3DRel, M3DRef-CLIP, Scan2Cap, ScanQA, 3D-VisTA
  • generalists: Chat-3D v2, LL3DA, LEO, Grounded3D-LLM, PQ3D, ChatScene, SceneLLM, Inst3D-LLM, 3D-LLaVA, 3DRS, LLaVA-3D, LLaVA-4D, Fase3D, Video-3D LLM

空间推理基线:

  • API模型: GPT-4o, Gemini-1.5-Pro, Gemini-1.5-Flash
  • 开源模型: LongVA-7B, LongVILA-8B, InternVL2-8B/40B, VILA-1.5-40B, LLaVA-OneVision-7B/72B, LLaVA-NeXT-Video-7B/72B
  • 空间增强模型: Video-R1-7B, vsGRPO-V-7B, SPAR-8B, SpaceR-7B, 3DRS-7B, VG-LLM-4B/8B

机器人操作基线:

  • Diffusion Policy, Octo, OpenVLA, DiT Policy, CoT-VLA, UniVLA, OpenVLA-OFT

4.2 主要实验结果

4.2.1 3D场景理解性能

ScanRefer基准(3D视觉定位)

方法Acc@0.25Acc@0.5平均排名
ScanRefer (ECCV 20)37.324.316.5
MVT (CVPR 22)40.833.315.5
3DVG-Trans (ICCV 21)45.934.514.0
ViL3DRel (NeurIPS 21)47.937.712.5
ChatScene (NeurIPS 24)55.550.27.4
Inst3D-LLM (CVPR 25)57.851.65.5
3DRS (NeurIPS 25)62.956.12.2
Video-3D LLM (基线)58.151.74.0
VEGA-3D (本工作)63.256.21.8

关键发现:

  • VEGA-3D在Acc@0.25上达到63.2%,超越基线5.1个百分点
  • 在Acc@0.5上达到56.2%,超越基线4.5个百分点
  • 平均排名1.8,在所有方法中排名第一
  • 与使用显式3D监督的3DRS(62.9%/56.1%)性能相当

Multi3DRefer基准(多目标3D定位)

方法F1@0.25F1@0.5
ChatScene57.152.4
Inst3D-LLM58.353.5
3DRS60.454.9
Video-3D LLM (基线)58.052.7
VEGA-3D60.855.1

提升分析:

  • F1@0.25提升2.8个百分点
  • F1@0.5提升2.4个百分点
  • 在多目标定位场景下表现尤为突出

Scan2Cap基准(密集描述生成)

方法CIDEr@5BLEU@4@5
Scan2Cap (CVPR 21)35.222.4
ChatScene77.136.3
Inst3D-LLM79.738.3
3DRS86.141.6
Video-3D LLM (基线)83.841.3
VEGA-3D83.242.2

观察:

  • CIDEr@5略有下降(83.8 → 83.2)
  • BLEU@4@5有所提升(41.3 → 42.2)
  • 表明语义-几何权衡:强调结构线索可能削弱细粒度词汇细节

ScanQA基准(3D场景问答)

方法EM
ScanQA (CVPR 22)64.9
3D-VisTA (ICCV 23)69.6
ChatScene87.7
Inst3D-LLM88.6
3DRS104.8
Video-3D LLM (基线)102.1
VEGA-3D106.3

显著提升: EM指标从102.1提升到106.3,提升4.2分

SQA3D基准(复杂3D问答)

方法EM平均排名
ScanQA47.212.3
3D-VisTA48.510.9
ChatScene54.67.4
LEO50.08.4
Video-3D LLM (基线)58.64.0
VEGA-3D61.31.8

突出表现:

  • EM提升2.7个百分点
  • 排名第一,验证了在复杂问答任务上的优势

4.2.2 空间推理性能(VSI-Bench)

VSI-Bench评估8个维度的视觉空间能力:

能力类别Qwen2.5VL-7BVEGA-3D提升
平均准确率48.9%50.5%+1.6%
物体计数68.3%69.7%+1.4%
绝对距离37.0%35.9%-1.1%
物体大小57.4%58.0%+0.6%
房间大小58.7%60.8%+2.1%
相对距离39.7%45.1%+5.4%
相对方向43.0%43.1%+0.1%
路径规划29.4%30.9%+1.5%
接近顺序57.8%60.5%+2.7%

关键洞察:

  • 相对距离提升最显著(+5.4%),验证了生成先验在空间关系推理上的优势
  • 房间大小接近顺序也有明显提升
  • 绝对距离略有下降,可能由于生成特征对相对关系更敏感

4.2.3 机器人操作性能(LIBERO)

LIBERO包含4个任务套件:

方法空间操作目标达成长程任务平均成功率
Diffusion Policy78.3%92.5%68.3%72.4%
Octo78.9%85.7%84.6%75.1%
OpenVLA84.7%88.4%79.2%76.5%
DiT Policy84.2%96.3%85.4%82.4%
CoT-VLA87.5%91.6%87.6%81.1%
UniVLA96.5%96.8%95.6%95.2%
OpenVLA-OFT (基线)97.5%98.3%97.8%97.0%
VEGA-3D97.4%99.4%97.0%97.3%

突破:

  • 在已经非常高的基线(97.0%)上进一步提升到97.3%
  • 目标达成任务达到99.4%,接近完美
  • 证明了生成先验可以直接迁移到具身智能任务

4.3 消融实验

4.3.1 生成 vs 判别先验

特征类型ScanRefer Acc@0.5SQA3D EM
仅语义特征 (SigLIP)51.7%58.6%
仅生成特征49.3%55.2%
平均融合52.8%59.1%
自适应门控融合56.2%61.3%

发现:

  • 单独使用生成特征性能不如语义特征(生成模型非为判别任务训练)
  • 简单平均融合有一定提升
  • 自适应门控融合带来最大增益,证明动态选择策略的有效性

4.3.2 不同视频生成骨干

生成模型架构参数量多视角一致性ScanQA EM
SVDUNet1.2B78.2%98.5
Stable DiffusionUNet1.5B76.4%97.2
VmemUNet2.8B81.3%101.3
Wan2.1-T2VDiT1.3B96.8%106.3
Wan2.1-VACEDiT1.3B95.4%108.7

关键洞察:

  • DiT架构显著优于UNet(96.8% vs 78-81%多视角一致性)
  • UNet的卷积归纳偏置和有限感受野限制了长程几何对齐
  • DiT的全局注意力机制捕获整体上下文,实现更好的几何一致性

4.3.3 时间步选择分析

时间步k vs ScanRefer性能:
k=0   (t=0.0):  ████████░░░░░░░░░░░░  48.2%  (噪声不足)
k=100 (t=0.1):  █████████░░░░░░░░░░░  49.5%
k=200 (t=0.2):  ███████████░░░░░░░░░  53.1%
k=300 (t=0.3):  ████████████████░░░░  56.2%  ⭐ 最优
k=400 (t=0.4):  ███████████████░░░░░  55.8%
k=500 (t=0.5):  ████████████░░░░░░░░  54.2%
k=700 (t=0.7):  █████████░░░░░░░░░░░  51.3%
k=1000(t=1.0):  ███████░░░░░░░░░░░░░  48.9%  (过于接近输出)

结论: k=300(t=0.3)是最佳平衡点,验证了中间去噪阶段特征最丰富的假设。

4.3.4 DiT层深度分析

层深度 vs 性能:
Layer 5:  ██████████░░░░░░░░░░  50.1%
Layer 10: ███████████░░░░░░░░░  52.4%
Layer 15: █████████████░░░░░░░  54.7%
Layer 20: ████████████████░░░░  56.2%  ⭐ 最优
Layer 25: ███████████████░░░░░  55.6%
Layer 30: ████████████░░░░░░░░  53.8%
Layer 35: ██████████░░░░░░░░░░  51.2%

解释:

  • 早期层:编码低级特征(边缘、颜色)
  • 中期层(20层): 编码中级特征(结构、几何)⭐
  • 晚期层:编码高级语义

4.3.5 门控机制对比

融合策略ScanRefer Acc@0.5参数量增加
无融合(仅语义)51.7%0
简单拼接53.2%+12%
加权平均(固定权重)53.8%+5%
门控融合(全局)54.9%+8%
自适应门控(Token级)56.2%+10%

分析:

  • Token级自适应门控带来最大性能提升
  • 额外的10%参数量代价换来了4.5%的性能提升,性价比合理

4.4 特征可视化分析

4.4.1 多视角一致性可视化

研究团队在ScanNet测试集上的分析显示:

DiT模型(Wan2.1):

  • 同一3D点在不同视角下的特征余弦相似度: >96%
  • PCA特征表示在相机视角变化时保持稳定

UNet模型(SVD):

  • 多视角对应分数: ~78%
  • 视角变化时特征波动较大

可视化解读:

DiT特征空间:
视角1 → [特征向量A] ─┐
                     ├──> 余弦相似度 > 0.96
视角2 → [特征向量B] ─┘

UNet特征空间:
视角1 → [特征向量C] ─┐
                     ├──> 余弦相似度 ~ 0.78
视角2 → [特征向量D] ─┘

4.4.2 注意力图对比

基线模型(仅语义特征):

  • 注意力分布分散
  • 难以精确定位目标物体
  • 存在”空间歧义”

VEGA-3D(融合后):

  • 注意力高度聚焦于目标
  • 精确定位物体边界
  • 有效克服空间歧义

关键发现: 生成先验充当了空间锚点,为MLLMs提供了精确的几何引导。

4.4.3 特征互补性分析

语义特征擅长:

  • 物体类别识别
  • 语义关系理解
  • 细粒度属性描述

生成特征擅长:

  • 空间位置定位
  • 几何结构理解
  • 物理一致性判断

融合效果: 两者的融合产生了协同效应,在需要同时理解”是什么”和”在哪里”的任务上表现最优。


4.5 关键实验发现总结

4.5.1 性能提升规律

  1. 定位任务提升最显著: ScanRefer Acc@0.5提升4.5%,验证了生成先验作为”空间锚点”的有效性
  2. 复杂问答表现优异: SQA3D EM提升2.7%,证明生成先验有助于复杂推理
  3. 纯语义任务略有取舍: Scan2Cap CIDEr@5下降0.6%,反映语义-几何权衡

4.5.2 架构选择的重要性

  • DiT vs UNet: DiT的全局注意力机制带来20%的多视角一致性提升
  • 时间步选择: k=300是最佳平衡点,验证了中间层特征假设
  • 层深度: 第20层编码最丰富的几何信息

4.5.3 泛化性验证

  • 跨任务: 在3D理解、空间推理、机器人操作三类任务上均有效
  • 跨模型: 可应用于不同基线模型(Video-3D LLM, Qwen2.5VL, OpenVLA)
  • 跨领域: 从室内场景到机器人操作,展现良好泛化性

4.6 小结

实验结果全面验证了VEGA-3D的有效性:

  1. SOTA性能: 在5个3D场景理解基准上取得最佳或次佳性能
  2. 一致提升: 在定位、问答、空间推理、机器人操作等任务上均有提升
  3. 可扩展性: 视频生成技术的进步可直接转化为3D理解能力提升
  4. 泛化性: 跨任务、跨模型、跨领域均展现良好适应性

特别值得注意的是,这些性能提升是在不使用任何显式3D监督的情况下获得的,充分证明了利用生成先验这一范式的巨大潜力。