实验设计与结果分析
论文解读 实验结果 性能分析
VEGA-3D的实验设置、数据集介绍、性能对比、消融实验以及关键发现
4.1 实验设置概览
4.1.1 评估维度
VEGA-3D在三类代表性任务上进行了全面评估:
mindmap
root((实验评估))
3D场景理解
视觉定位
密集描述
问答任务
空间推理
绝对距离
相对位置
路径规划
机器人操作
空间操作
目标达成
长程任务
4.1.2 基准测试列表
| 任务类型 | 基准测试 | 评估指标 | 数据规模 |
|---|---|---|---|
| 3D场景理解 | ScanRefer | Acc@0.25, Acc@0.5 | 800+场景 |
| Multi3DRefer | F1@0.25, F1@0.5 | 1,786描述 | |
| Scan2Cap | CIDEr@3,5, BLEU@4,5 | 1,046场景 | |
| ScanQA | EM | 3,000+问答对 | |
| SQA3D | EM | 650+问题 | |
| 空间推理 | VSI-Bench | 多维度准确率 | 视频理解 |
| 机器人操作 | LIBERO | 成功率(SR) | 4个任务套件 |
4.1.3 基线模型选择
3D场景理解基线:
- ** specialists**: ScanRefer, MVT, 3DVG-Trans, ViL3DRel, M3DRef-CLIP, Scan2Cap, ScanQA, 3D-VisTA
- generalists: Chat-3D v2, LL3DA, LEO, Grounded3D-LLM, PQ3D, ChatScene, SceneLLM, Inst3D-LLM, 3D-LLaVA, 3DRS, LLaVA-3D, LLaVA-4D, Fase3D, Video-3D LLM
空间推理基线:
- API模型: GPT-4o, Gemini-1.5-Pro, Gemini-1.5-Flash
- 开源模型: LongVA-7B, LongVILA-8B, InternVL2-8B/40B, VILA-1.5-40B, LLaVA-OneVision-7B/72B, LLaVA-NeXT-Video-7B/72B
- 空间增强模型: Video-R1-7B, vsGRPO-V-7B, SPAR-8B, SpaceR-7B, 3DRS-7B, VG-LLM-4B/8B
机器人操作基线:
- Diffusion Policy, Octo, OpenVLA, DiT Policy, CoT-VLA, UniVLA, OpenVLA-OFT
4.2 主要实验结果
4.2.1 3D场景理解性能
ScanRefer基准(3D视觉定位)
| 方法 | Acc@0.25 | Acc@0.5 | 平均排名 |
|---|---|---|---|
| ScanRefer (ECCV 20) | 37.3 | 24.3 | 16.5 |
| MVT (CVPR 22) | 40.8 | 33.3 | 15.5 |
| 3DVG-Trans (ICCV 21) | 45.9 | 34.5 | 14.0 |
| ViL3DRel (NeurIPS 21) | 47.9 | 37.7 | 12.5 |
| ChatScene (NeurIPS 24) | 55.5 | 50.2 | 7.4 |
| Inst3D-LLM (CVPR 25) | 57.8 | 51.6 | 5.5 |
| 3DRS (NeurIPS 25) | 62.9 | 56.1 | 2.2 |
| Video-3D LLM (基线) | 58.1 | 51.7 | 4.0 |
| VEGA-3D (本工作) | 63.2 | 56.2 | 1.8 |
关键发现:
- VEGA-3D在Acc@0.25上达到63.2%,超越基线5.1个百分点
- 在Acc@0.5上达到56.2%,超越基线4.5个百分点
- 平均排名1.8,在所有方法中排名第一
- 与使用显式3D监督的3DRS(62.9%/56.1%)性能相当
Multi3DRefer基准(多目标3D定位)
| 方法 | F1@0.25 | F1@0.5 |
|---|---|---|
| ChatScene | 57.1 | 52.4 |
| Inst3D-LLM | 58.3 | 53.5 |
| 3DRS | 60.4 | 54.9 |
| Video-3D LLM (基线) | 58.0 | 52.7 |
| VEGA-3D | 60.8 | 55.1 |
提升分析:
- F1@0.25提升2.8个百分点
- F1@0.5提升2.4个百分点
- 在多目标定位场景下表现尤为突出
Scan2Cap基准(密集描述生成)
| 方法 | CIDEr@5 | BLEU@4@5 |
|---|---|---|
| Scan2Cap (CVPR 21) | 35.2 | 22.4 |
| ChatScene | 77.1 | 36.3 |
| Inst3D-LLM | 79.7 | 38.3 |
| 3DRS | 86.1 | 41.6 |
| Video-3D LLM (基线) | 83.8 | 41.3 |
| VEGA-3D | 83.2 | 42.2 |
观察:
- CIDEr@5略有下降(83.8 → 83.2)
- BLEU@4@5有所提升(41.3 → 42.2)
- 表明语义-几何权衡:强调结构线索可能削弱细粒度词汇细节
ScanQA基准(3D场景问答)
| 方法 | EM |
|---|---|
| ScanQA (CVPR 22) | 64.9 |
| 3D-VisTA (ICCV 23) | 69.6 |
| ChatScene | 87.7 |
| Inst3D-LLM | 88.6 |
| 3DRS | 104.8 |
| Video-3D LLM (基线) | 102.1 |
| VEGA-3D | 106.3 |
显著提升: EM指标从102.1提升到106.3,提升4.2分
SQA3D基准(复杂3D问答)
| 方法 | EM | 平均排名 |
|---|---|---|
| ScanQA | 47.2 | 12.3 |
| 3D-VisTA | 48.5 | 10.9 |
| ChatScene | 54.6 | 7.4 |
| LEO | 50.0 | 8.4 |
| Video-3D LLM (基线) | 58.6 | 4.0 |
| VEGA-3D | 61.3 | 1.8 |
突出表现:
- EM提升2.7个百分点
- 排名第一,验证了在复杂问答任务上的优势
4.2.2 空间推理性能(VSI-Bench)
VSI-Bench评估8个维度的视觉空间能力:
| 能力类别 | Qwen2.5VL-7B | VEGA-3D | 提升 |
|---|---|---|---|
| 平均准确率 | 48.9% | 50.5% | +1.6% |
| 物体计数 | 68.3% | 69.7% | +1.4% |
| 绝对距离 | 37.0% | 35.9% | -1.1% |
| 物体大小 | 57.4% | 58.0% | +0.6% |
| 房间大小 | 58.7% | 60.8% | +2.1% |
| 相对距离 | 39.7% | 45.1% | +5.4% |
| 相对方向 | 43.0% | 43.1% | +0.1% |
| 路径规划 | 29.4% | 30.9% | +1.5% |
| 接近顺序 | 57.8% | 60.5% | +2.7% |
关键洞察:
- 相对距离提升最显著(+5.4%),验证了生成先验在空间关系推理上的优势
- 房间大小和接近顺序也有明显提升
- 绝对距离略有下降,可能由于生成特征对相对关系更敏感
4.2.3 机器人操作性能(LIBERO)
LIBERO包含4个任务套件:
| 方法 | 空间操作 | 目标达成 | 长程任务 | 平均成功率 |
|---|---|---|---|---|
| Diffusion Policy | 78.3% | 92.5% | 68.3% | 72.4% |
| Octo | 78.9% | 85.7% | 84.6% | 75.1% |
| OpenVLA | 84.7% | 88.4% | 79.2% | 76.5% |
| DiT Policy | 84.2% | 96.3% | 85.4% | 82.4% |
| CoT-VLA | 87.5% | 91.6% | 87.6% | 81.1% |
| UniVLA | 96.5% | 96.8% | 95.6% | 95.2% |
| OpenVLA-OFT (基线) | 97.5% | 98.3% | 97.8% | 97.0% |
| VEGA-3D | 97.4% | 99.4% | 97.0% | 97.3% |
突破:
- 在已经非常高的基线(97.0%)上进一步提升到97.3%
- 目标达成任务达到99.4%,接近完美
- 证明了生成先验可以直接迁移到具身智能任务
4.3 消融实验
4.3.1 生成 vs 判别先验
| 特征类型 | ScanRefer Acc@0.5 | SQA3D EM |
|---|---|---|
| 仅语义特征 (SigLIP) | 51.7% | 58.6% |
| 仅生成特征 | 49.3% | 55.2% |
| 平均融合 | 52.8% | 59.1% |
| 自适应门控融合 | 56.2% | 61.3% |
发现:
- 单独使用生成特征性能不如语义特征(生成模型非为判别任务训练)
- 简单平均融合有一定提升
- 自适应门控融合带来最大增益,证明动态选择策略的有效性
4.3.2 不同视频生成骨干
| 生成模型 | 架构 | 参数量 | 多视角一致性 | ScanQA EM |
|---|---|---|---|---|
| SVD | UNet | 1.2B | 78.2% | 98.5 |
| Stable Diffusion | UNet | 1.5B | 76.4% | 97.2 |
| Vmem | UNet | 2.8B | 81.3% | 101.3 |
| Wan2.1-T2V | DiT | 1.3B | 96.8% | 106.3 |
| Wan2.1-VACE | DiT | 1.3B | 95.4% | 108.7 |
关键洞察:
- DiT架构显著优于UNet(96.8% vs 78-81%多视角一致性)
- UNet的卷积归纳偏置和有限感受野限制了长程几何对齐
- DiT的全局注意力机制捕获整体上下文,实现更好的几何一致性
4.3.3 时间步选择分析
时间步k vs ScanRefer性能:
k=0 (t=0.0): ████████░░░░░░░░░░░░ 48.2% (噪声不足)
k=100 (t=0.1): █████████░░░░░░░░░░░ 49.5%
k=200 (t=0.2): ███████████░░░░░░░░░ 53.1%
k=300 (t=0.3): ████████████████░░░░ 56.2% ⭐ 最优
k=400 (t=0.4): ███████████████░░░░░ 55.8%
k=500 (t=0.5): ████████████░░░░░░░░ 54.2%
k=700 (t=0.7): █████████░░░░░░░░░░░ 51.3%
k=1000(t=1.0): ███████░░░░░░░░░░░░░ 48.9% (过于接近输出)
结论: k=300(t=0.3)是最佳平衡点,验证了中间去噪阶段特征最丰富的假设。
4.3.4 DiT层深度分析
层深度 vs 性能:
Layer 5: ██████████░░░░░░░░░░ 50.1%
Layer 10: ███████████░░░░░░░░░ 52.4%
Layer 15: █████████████░░░░░░░ 54.7%
Layer 20: ████████████████░░░░ 56.2% ⭐ 最优
Layer 25: ███████████████░░░░░ 55.6%
Layer 30: ████████████░░░░░░░░ 53.8%
Layer 35: ██████████░░░░░░░░░░ 51.2%
解释:
- 早期层:编码低级特征(边缘、颜色)
- 中期层(20层): 编码中级特征(结构、几何)⭐
- 晚期层:编码高级语义
4.3.5 门控机制对比
| 融合策略 | ScanRefer Acc@0.5 | 参数量增加 |
|---|---|---|
| 无融合(仅语义) | 51.7% | 0 |
| 简单拼接 | 53.2% | +12% |
| 加权平均(固定权重) | 53.8% | +5% |
| 门控融合(全局) | 54.9% | +8% |
| 自适应门控(Token级) | 56.2% | +10% |
分析:
- Token级自适应门控带来最大性能提升
- 额外的10%参数量代价换来了4.5%的性能提升,性价比合理
4.4 特征可视化分析
4.4.1 多视角一致性可视化
研究团队在ScanNet测试集上的分析显示:
DiT模型(Wan2.1):
- 同一3D点在不同视角下的特征余弦相似度: >96%
- PCA特征表示在相机视角变化时保持稳定
UNet模型(SVD):
- 多视角对应分数: ~78%
- 视角变化时特征波动较大
可视化解读:
DiT特征空间:
视角1 → [特征向量A] ─┐
├──> 余弦相似度 > 0.96
视角2 → [特征向量B] ─┘
UNet特征空间:
视角1 → [特征向量C] ─┐
├──> 余弦相似度 ~ 0.78
视角2 → [特征向量D] ─┘
4.4.2 注意力图对比
基线模型(仅语义特征):
- 注意力分布分散
- 难以精确定位目标物体
- 存在”空间歧义”
VEGA-3D(融合后):
- 注意力高度聚焦于目标
- 精确定位物体边界
- 有效克服空间歧义
关键发现: 生成先验充当了空间锚点,为MLLMs提供了精确的几何引导。
4.4.3 特征互补性分析
语义特征擅长:
- 物体类别识别
- 语义关系理解
- 细粒度属性描述
生成特征擅长:
- 空间位置定位
- 几何结构理解
- 物理一致性判断
融合效果: 两者的融合产生了协同效应,在需要同时理解”是什么”和”在哪里”的任务上表现最优。
4.5 关键实验发现总结
4.5.1 性能提升规律
- 定位任务提升最显著: ScanRefer Acc@0.5提升4.5%,验证了生成先验作为”空间锚点”的有效性
- 复杂问答表现优异: SQA3D EM提升2.7%,证明生成先验有助于复杂推理
- 纯语义任务略有取舍: Scan2Cap CIDEr@5下降0.6%,反映语义-几何权衡
4.5.2 架构选择的重要性
- DiT vs UNet: DiT的全局注意力机制带来20%的多视角一致性提升
- 时间步选择: k=300是最佳平衡点,验证了中间层特征假设
- 层深度: 第20层编码最丰富的几何信息
4.5.3 泛化性验证
- 跨任务: 在3D理解、空间推理、机器人操作三类任务上均有效
- 跨模型: 可应用于不同基线模型(Video-3D LLM, Qwen2.5VL, OpenVLA)
- 跨领域: 从室内场景到机器人操作,展现良好泛化性
4.6 小结
实验结果全面验证了VEGA-3D的有效性:
- SOTA性能: 在5个3D场景理解基准上取得最佳或次佳性能
- 一致提升: 在定位、问答、空间推理、机器人操作等任务上均有提升
- 可扩展性: 视频生成技术的进步可直接转化为3D理解能力提升
- 泛化性: 跨任务、跨模型、跨领域均展现良好适应性
特别值得注意的是,这些性能提升是在不使用任何显式3D监督的情况下获得的,充分证明了利用生成先验这一范式的巨大潜力。