实验设计与结果分析

论文解读实验结果性能分析

VEGA-3D的实验设置、数据集介绍、性能对比、消融实验以及关键发现

4.1 实验设置概览

4.1.1 评估维度

VEGA-3D在三类代表性任务上进行了全面评估：

mindmap
  root((实验评估))
    3D场景理解
      视觉定位
      密集描述
      问答任务
    空间推理
      绝对距离
      相对位置
      路径规划
    机器人操作
      空间操作
      目标达成
      长程任务

4.1.2 基准测试列表

任务类型	基准测试	评估指标	数据规模
3D场景理解	ScanRefer	Acc@0.25, Acc@0.5	800+场景
	Multi3DRefer	F1@0.25, F1@0.5	1,786描述
	Scan2Cap	CIDEr@3,5, BLEU@4,5	1,046场景
	ScanQA	EM	3,000+问答对
	SQA3D	EM	650+问题
空间推理	VSI-Bench	多维度准确率	视频理解
机器人操作	LIBERO	成功率(SR)	4个任务套件

4.1.3 基线模型选择

3D场景理解基线:

** specialists**: ScanRefer, MVT, 3DVG-Trans, ViL3DRel, M3DRef-CLIP, Scan2Cap, ScanQA, 3D-VisTA
generalists: Chat-3D v2, LL3DA, LEO, Grounded3D-LLM, PQ3D, ChatScene, SceneLLM, Inst3D-LLM, 3D-LLaVA, 3DRS, LLaVA-3D, LLaVA-4D, Fase3D, Video-3D LLM

空间推理基线:

API模型: GPT-4o, Gemini-1.5-Pro, Gemini-1.5-Flash
开源模型: LongVA-7B, LongVILA-8B, InternVL2-8B/40B, VILA-1.5-40B, LLaVA-OneVision-7B/72B, LLaVA-NeXT-Video-7B/72B
空间增强模型: Video-R1-7B, vsGRPO-V-7B, SPAR-8B, SpaceR-7B, 3DRS-7B, VG-LLM-4B/8B

机器人操作基线:

Diffusion Policy, Octo, OpenVLA, DiT Policy, CoT-VLA, UniVLA, OpenVLA-OFT

4.2 主要实验结果

4.2.1 3D场景理解性能

ScanRefer基准（3D视觉定位）

方法	Acc@0.25	Acc@0.5	平均排名
ScanRefer (ECCV 20)	37.3	24.3	16.5
MVT (CVPR 22)	40.8	33.3	15.5
3DVG-Trans (ICCV 21)	45.9	34.5	14.0
ViL3DRel (NeurIPS 21)	47.9	37.7	12.5
ChatScene (NeurIPS 24)	55.5	50.2	7.4
Inst3D-LLM (CVPR 25)	57.8	51.6	5.5
3DRS (NeurIPS 25)	62.9	56.1	2.2
Video-3D LLM (基线)	58.1	51.7	4.0
VEGA-3D (本工作)	63.2	56.2	1.8

关键发现:

VEGA-3D在Acc@0.25上达到63.2%，超越基线5.1个百分点
在Acc@0.5上达到56.2%，超越基线4.5个百分点
平均排名1.8，在所有方法中排名第一
与使用显式3D监督的3DRS（62.9%/56.1%）性能相当

Multi3DRefer基准（多目标3D定位）

方法	F1@0.25	F1@0.5
ChatScene	57.1	52.4
Inst3D-LLM	58.3	53.5
3DRS	60.4	54.9
Video-3D LLM (基线)	58.0	52.7
VEGA-3D	60.8	55.1

提升分析:

F1@0.25提升2.8个百分点
F1@0.5提升2.4个百分点
在多目标定位场景下表现尤为突出

Scan2Cap基准（密集描述生成）

方法	CIDEr@5	BLEU@4@5
Scan2Cap (CVPR 21)	35.2	22.4
ChatScene	77.1	36.3
Inst3D-LLM	79.7	38.3
3DRS	86.1	41.6
Video-3D LLM (基线)	83.8	41.3
VEGA-3D	83.2	42.2

观察:

CIDEr@5略有下降（83.8 → 83.2）
BLEU@4@5有所提升（41.3 → 42.2）
表明语义-几何权衡：强调结构线索可能削弱细粒度词汇细节

ScanQA基准（3D场景问答）

方法	EM
ScanQA (CVPR 22)	64.9
3D-VisTA (ICCV 23)	69.6
ChatScene	87.7
Inst3D-LLM	88.6
3DRS	104.8
Video-3D LLM (基线)	102.1
VEGA-3D	106.3

显著提升: EM指标从102.1提升到106.3，提升4.2分

SQA3D基准（复杂3D问答）

方法	EM	平均排名
ScanQA	47.2	12.3
3D-VisTA	48.5	10.9
ChatScene	54.6	7.4
LEO	50.0	8.4
Video-3D LLM (基线)	58.6	4.0
VEGA-3D	61.3	1.8

突出表现:

EM提升2.7个百分点
排名第一，验证了在复杂问答任务上的优势

4.2.2 空间推理性能（VSI-Bench）

VSI-Bench评估8个维度的视觉空间能力：

能力类别	Qwen2.5VL-7B	VEGA-3D	提升
平均准确率	48.9%	50.5%	+1.6%
物体计数	68.3%	69.7%	+1.4%
绝对距离	37.0%	35.9%	-1.1%
物体大小	57.4%	58.0%	+0.6%
房间大小	58.7%	60.8%	+2.1%
相对距离	39.7%	45.1%	+5.4%
相对方向	43.0%	43.1%	+0.1%
路径规划	29.4%	30.9%	+1.5%
接近顺序	57.8%	60.5%	+2.7%

关键洞察:

相对距离提升最显著（+5.4%），验证了生成先验在空间关系推理上的优势
房间大小和接近顺序也有明显提升
绝对距离略有下降，可能由于生成特征对相对关系更敏感

4.2.3 机器人操作性能（LIBERO）

LIBERO包含4个任务套件：

方法	空间操作	目标达成	长程任务	平均成功率
Diffusion Policy	78.3%	92.5%	68.3%	72.4%
Octo	78.9%	85.7%	84.6%	75.1%
OpenVLA	84.7%	88.4%	79.2%	76.5%
DiT Policy	84.2%	96.3%	85.4%	82.4%
CoT-VLA	87.5%	91.6%	87.6%	81.1%
UniVLA	96.5%	96.8%	95.6%	95.2%
OpenVLA-OFT (基线)	97.5%	98.3%	97.8%	97.0%
VEGA-3D	97.4%	99.4%	97.0%	97.3%

突破:

在已经非常高的基线（97.0%）上进一步提升到97.3%
目标达成任务达到99.4%，接近完美
证明了生成先验可以直接迁移到具身智能任务

4.3 消融实验

4.3.1 生成 vs 判别先验

特征类型	ScanRefer Acc@0.5	SQA3D EM
仅语义特征 (SigLIP)	51.7%	58.6%
仅生成特征	49.3%	55.2%
平均融合	52.8%	59.1%
自适应门控融合	56.2%	61.3%

发现:

单独使用生成特征性能不如语义特征（生成模型非为判别任务训练）
简单平均融合有一定提升
自适应门控融合带来最大增益，证明动态选择策略的有效性

4.3.2 不同视频生成骨干

生成模型	架构	参数量	多视角一致性	ScanQA EM
SVD	UNet	1.2B	78.2%	98.5
Stable Diffusion	UNet	1.5B	76.4%	97.2
Vmem	UNet	2.8B	81.3%	101.3
Wan2.1-T2V	DiT	1.3B	96.8%	106.3
Wan2.1-VACE	DiT	1.3B	95.4%	108.7

关键洞察:

DiT架构显著优于UNet（96.8% vs 78-81%多视角一致性）
UNet的卷积归纳偏置和有限感受野限制了长程几何对齐
DiT的全局注意力机制捕获整体上下文，实现更好的几何一致性

4.3.3 时间步选择分析

时间步k vs ScanRefer性能:
k=0   (t=0.0):  ████████░░░░░░░░░░░░  48.2%  (噪声不足)
k=100 (t=0.1):  █████████░░░░░░░░░░░  49.5%
k=200 (t=0.2):  ███████████░░░░░░░░░  53.1%
k=300 (t=0.3):  ████████████████░░░░  56.2%  ⭐ 最优
k=400 (t=0.4):  ███████████████░░░░░  55.8%
k=500 (t=0.5):  ████████████░░░░░░░░  54.2%
k=700 (t=0.7):  █████████░░░░░░░░░░░  51.3%
k=1000(t=1.0):  ███████░░░░░░░░░░░░░  48.9%  (过于接近输出)

结论: k=300（t=0.3）是最佳平衡点，验证了中间去噪阶段特征最丰富的假设。

4.3.4 DiT层深度分析

层深度 vs 性能:
Layer 5:  ██████████░░░░░░░░░░  50.1%
Layer 10: ███████████░░░░░░░░░  52.4%
Layer 15: █████████████░░░░░░░  54.7%
Layer 20: ████████████████░░░░  56.2%  ⭐ 最优
Layer 25: ███████████████░░░░░  55.6%
Layer 30: ████████████░░░░░░░░  53.8%
Layer 35: ██████████░░░░░░░░░░  51.2%

解释:

早期层：编码低级特征（边缘、颜色）
中期层（20层）: 编码中级特征（结构、几何）⭐
晚期层：编码高级语义

4.3.5 门控机制对比

融合策略	ScanRefer Acc@0.5	参数量增加
无融合（仅语义）	51.7%	0
简单拼接	53.2%	+12%
加权平均（固定权重）	53.8%	+5%
门控融合（全局）	54.9%	+8%
自适应门控（Token级）	56.2%	+10%

分析:

Token级自适应门控带来最大性能提升
额外的10%参数量代价换来了4.5%的性能提升，性价比合理

4.4 特征可视化分析

4.4.1 多视角一致性可视化

研究团队在ScanNet测试集上的分析显示：

DiT模型（Wan2.1）:

同一3D点在不同视角下的特征余弦相似度: >96%
PCA特征表示在相机视角变化时保持稳定

UNet模型（SVD）:

多视角对应分数: ~78%
视角变化时特征波动较大

可视化解读:

DiT特征空间:
视角1 → [特征向量A] ─┐
                     ├──> 余弦相似度 > 0.96
视角2 → [特征向量B] ─┘

UNet特征空间:
视角1 → [特征向量C] ─┐
                     ├──> 余弦相似度 ~ 0.78
视角2 → [特征向量D] ─┘

4.4.2 注意力图对比

基线模型（仅语义特征）:

注意力分布分散
难以精确定位目标物体
存在”空间歧义”

VEGA-3D（融合后）:

注意力高度聚焦于目标
精确定位物体边界
有效克服空间歧义

关键发现: 生成先验充当了空间锚点，为MLLMs提供了精确的几何引导。

4.4.3 特征互补性分析

语义特征擅长:

物体类别识别
语义关系理解
细粒度属性描述

生成特征擅长:

空间位置定位
几何结构理解
物理一致性判断

融合效果: 两者的融合产生了协同效应，在需要同时理解”是什么”和”在哪里”的任务上表现最优。

4.5 关键实验发现总结

4.5.1 性能提升规律

定位任务提升最显著: ScanRefer Acc@0.5提升4.5%，验证了生成先验作为”空间锚点”的有效性
复杂问答表现优异: SQA3D EM提升2.7%，证明生成先验有助于复杂推理
纯语义任务略有取舍: Scan2Cap CIDEr@5下降0.6%，反映语义-几何权衡

4.5.2 架构选择的重要性

DiT vs UNet: DiT的全局注意力机制带来20%的多视角一致性提升
时间步选择: k=300是最佳平衡点，验证了中间层特征假设
层深度: 第20层编码最丰富的几何信息

4.5.3 泛化性验证

跨任务: 在3D理解、空间推理、机器人操作三类任务上均有效
跨模型: 可应用于不同基线模型（Video-3D LLM, Qwen2.5VL, OpenVLA）
跨领域: 从室内场景到机器人操作，展现良好泛化性

4.6 小结

实验结果全面验证了VEGA-3D的有效性：

SOTA性能: 在5个3D场景理解基准上取得最佳或次佳性能
一致提升: 在定位、问答、空间推理、机器人操作等任务上均有提升
可扩展性: 视频生成技术的进步可直接转化为3D理解能力提升
泛化性: 跨任务、跨模型、跨领域均展现良好适应性

特别值得注意的是，这些性能提升是在不使用任何显式3D监督的情况下获得的，充分证明了利用生成先验这一范式的巨大潜力。