技术方法论详解

论文解读技术架构算法详解

VEGA-3D的技术架构、核心算法流程、关键技术细节以及公式解读

3.1 整体架构概览

VEGA-3D采用双分支视觉编码架构，将高级语义能力与密集3D结构先验有机结合。

3.1.1 架构设计图

flowchart TB
    subgraph Input["输入层"]
        V["视频序列 V ∈ ℝ^(T×H×W×3)"]
        T["文本指令"]
    end
    
    subgraph SemanticBranch["语义分支"]
        SE["SigLIP编码器"]
        SP["语义投影器 P_sem"]
        SF["语义特征 F_sem"]
    end
    
    subgraph GenerativeBranch["生成分支"]
        VAE["VAE编码器"]
        NI["噪声注入"]
        DiT["DiT骨干网络 (20层)"]
        GP["生成投影器 P_gen"]
        GF["生成特征 F_gen"]
    end
    
    subgraph Fusion["融合层"]
        AGF["自适应门控融合"]
        FF["融合特征 F_fused"]
    end
    
    subgraph Output["输出层"]
        LLM["MLLM"]
        O["响应输出"]
    end
    
    V --> SE
    SE --> SP
    SP --> SF
    
    V --> VAE
    VAE --> NI
    NI --> DiT
    DiT --> GP
    GP --> GF
    
    SF --> AGF
    GF --> AGF
    AGF --> FF
    
    T --> LLM
    FF --> LLM
    LLM --> O

3.1.2 核心设计原则

冻结预训练: 视频生成模型（Wan2.1-T2V 1.3B）权重完全冻结
轻量适配: 仅训练投影层（MLP）和门控网络
特征互补: 语义特征负责识别，生成特征负责空间定位
动态融合: Token级自适应权重，灵活应对不同任务

3.2 关键技术组件

3.2.1 多模态大语言模型基础

标准协议: 给定多模态输入（文本token x + 视觉输入V），MLLM处理流程：

视觉嵌入: v = f_proj(f_enc(V))

其中:
- f_enc: 视觉编码器（如SigLIP）
- f_proj: 投影器，将视觉特征映射到语言空间
- v: 视觉token序列

训练目标: 最大化响应token序列y的似然：

$\mathcal{L}_{\mathrm{CE}}(\Theta) = -\sum_{i=1}^{L} \log p_{\Theta}(y_i \mid y_{<i}, \mathbf{x}, \mathbf{v})$

问题分析:

监督信号稀疏且离散
空间错误（如”左”vs”右”）被当作普通token错误处理
缺乏几何度量约束，导致标准判别编码器表现出”空间盲视”

3.2.2 视频扩散模型基础

模型选择: Wan2.1-T2V 1.3B

架构: Diffusion Transformer (DiT)
训练目标: Flow Matching
参数规模: 1.3B
文本条件: 简单文本提示接口

Flow Matching基础:

给定干净潜在视频 $z_0$ ，采样高斯噪声 $\epsilon \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$ 和时间 $t \sim \mathcal{U}(0,1)$ ，训练流网络 $v_\psi(\cdot)$ 回归目标速度：

$\mathcal{L}_{\mathrm{FM}}(\psi) = \mathbb{E}_{z_0, \epsilon, t} \left[ \| \mathbf{u}_t - v_\psi(\mathbf{z}_t, t, \mathbf{c}) \|_2^2 \right]$

其中：

$\mathbf{u}_t = \frac{\mathrm{d}\mathbf{z}_t}{\mathrm{d}t}$ 是目标速度
$\mathbf{c}$ 是条件信号（文本）
$\mathbf{z}_t = (1-t) \cdot z_0 + t \cdot \epsilon$ 是加噪潜在表示

离散时间步实现: 使用离散时间步 $k \in \{0, \ldots, K\}$ （ $K=1000$ ），归一化时间为 $t_k = \frac{k}{K}$

3.3 核心方法论

3.3.1 阶段一：3D感知分析

核心发现: 多视角特征一致性是几何能力的可靠指标

多视角对应分数（Multi-view Correspondence Score）

定义: 对于从V个视角观察的3D场景，将每个视角的编码器特征投影到共享的全局体素网格：

对于特定体素m，在两个不同视角 $v_i$ 和 $v_j$ 下观察，提取对应特征向量 $\mathbf{h}_{m,v_i}$ 和 $\mathbf{h}_{m,v_j}$

体素级一致性分数:

$S_{\text{voxel}}^{(m)} = \frac{\mathbf{h}_{m,v_i}^{\top} \mathbf{h}_{m,v_j}}{\|\mathbf{h}_{m,v_i}\| \|\mathbf{h}_{m,v_j}\|}$

场景级分数: 对所有有效体素对取平均

关键洞察:

DiT模型一致性 > 96%
UNet模型一致性 ~ 78%
一致性与下游3D性能强正相关

归一化总体分数（NOS）

将所有评估模型的性能指标归一化到[0,1]，然后平均为单一标量，用于验证多视角一致性作为3D能力预测指标的可靠性。

3.3.2 阶段二：潜在世界模拟

核心思想: 静态潜在表示不足以激活生成模型的全部推理能力，需要通过噪声注入过程”唤醒”其物理理解。

噪声注入过程

给定输入视频序列 $\mathbf{V} \in \mathbb{R}^{T \times H \times W \times 3}$ ：

步骤1: VAE编码得到干净潜在表示 $\mathbf{z}_0 = E(\mathbf{V})$

步骤2: 选择离散时间步 $k$ （默认k=300），定义归一化时间 $t_k = \frac{k}{K}$

步骤3: 采样高斯噪声并构造加噪潜在表示 $\mathbf{z}_k = (1-t_k) \cdot \mathbf{z}_0 + t_k \cdot \epsilon$

其中 $\epsilon \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$

步骤4: 输入DiT骨干网络，使用空文本提示 $\mathbf{f}_{\mathrm{raw}} = \Phi^{(l)}(\mathbf{z}_k, k; \mathbf{c}_{\text{text}}="")$

其中 $l$ 是特定中间层（默认第20层）

步骤5: 自适应平均池化匹配语义token维度 $\mathbf{f}_{\mathrm{gen}} \in \mathbb{R}^{T \times N \times D_{\mathrm{gen}}}$

关键超参数:

时间步: k=300 (t=0.3)
DiT层: l=20
体素大小: 0.1（用于对应分数计算）

3.3.3 阶段三：异构特征融合

挑战: 生成特征 $\mathbf{f}_{\mathrm{gen}}$ （连续物理空间）与语义特征 $\mathbf{f}_{\mathrm{sem}}$ （离散词汇空间）存在于根本不同的流形上。

独立投影

首先通过独立MLP投影器将两个流对齐到LLM的隐藏维度 $D_{\mathrm{llm}}$ ：

$\mathbf{F}_{\mathrm{gen}} = P_{\mathrm{gen}}(\mathbf{f}_{\mathrm{gen}})$ $\mathbf{F}_{\mathrm{sem}} = P_{\mathrm{sem}}(\mathbf{f}_{\mathrm{sem}})$

其中 $\mathbf{F}_{\mathrm{gen}}, \mathbf{F}_{\mathrm{sem}} \in \mathbb{R}^{T \times N \times D_{\mathrm{llm}}}$

自适应门控融合

门控计算:

对于第i个空间token，计算标量门控值 $g_i \in [0,1]$ ：

$g_i = \sigma\left( \mathbf{W}_g^{\top} \cdot \mathrm{Concat}\left( \mathrm{LN}(\mathbf{F}_{\mathrm{gen},i}), \mathrm{LN}(\mathbf{F}_{\mathrm{sem},i}) \right) + b_g \right)$

其中：

$\sigma(\cdot)$ : Sigmoid函数
$\mathrm{LN}$ : Layer Normalization
$\mathbf{W}_g$ : 可学习权重向量
$b_g$ : 偏置项

融合特征:

$\mathbf{F}_i^{\mathrm{fused}} = (1-g_i) \cdot \mathbf{F}_{\mathrm{gen},i} + g_i \cdot \mathbf{F}_{\mathrm{sem},i}$

门控机制解读:

graph LR
    A[输入特征] --> B{门控值g_i}
    B -->|g_i ≈ 0| C[优先生成特征]
    B -->|g_i ≈ 0.5| D[平衡融合]
    B -->|g_i ≈ 1| E[优先语义特征]
    
    C --> F[空间推理任务]
    E --> G[语义识别任务]

作用:

$g_i$ 充当语义-几何仲裁器
空间推理任务 → 优先生成特征
语义识别任务 → 优先语义特征

3.4 算法流程详解

3.4.1 训练流程

输入: 
  - 视频序列 V
  - 文本指令 T
  - 目标响应 Y

1. 特征提取:
   a. 语义特征: f_sem = SigLIP(V) → P_sem → F_sem
   b. 生成特征: 
      - z_0 = VAE_encode(V)
      - 采样 k=300, ε~N(0,I)
      - z_k = (1-t_k)*z_0 + t_k*ε
      - f_raw = DiT_layer20(z_k, empty_prompt)
      - f_gen = AdaptivePool(f_raw)
      - F_gen = P_gen(f_gen)

2. 特征融合:
   对每个token i:
     g_i = Sigmoid(W_g^T * Concat(LN(F_gen,i), LN(F_sem,i)) + b_g)
     F_fused,i = (1-g_i)*F_gen,i + g_i*F_sem,i

3. MLLM处理:
   Output = MLLM(T, F_fused)

4. 损失计算:
   L = CrossEntropy(Output, Y)

5. 反向传播更新:
   - 仅更新 P_gen, P_sem, 门控网络参数
   - SigLIP 和 DiT 保持冻结

3.4.2 推理流程

输入:
  - 视频序列 V
  - 文本查询 Q

1. 并行特征提取:
   - 语义分支: SigLIP(V) → P_sem
   - 生成分支: VAE(V) → NoiseInject(k=300) → DiT(l=20) → P_gen
   
2. 门控融合: 得到 F_fused

3. MLLM生成响应:
   Response = MLLM.generate(Q, F_fused)

4. 返回响应

3.5 关键技术细节

3.5.1 实现细节

训练配置:

优化器: Adam
批大小: 128
预热比例: 0.03
学习率:
- 语言模型: 1×10^-5（最大）
- 视觉骨干: 2×10^-6（最大）
硬件: 8× H100 NVIDIA GPUs

数据预处理:

每段扫描采样32帧构建多视角图像集
Flow Matching时间区间: t ∈ [0,1]，离散化为K=1000步
默认时间步索引: k=300（即t_k=0.3）

3.5.2 模型选择依据

为什么选择Wan2.1-T2V 1.3B？

简单文本条件接口: 易于控制和复用
强定位性能: 在定位为中心的任务上表现优异
开源可用: 便于社区复现和扩展
DiT架构: 全局注意力机制捕获整体上下文

兼容性: 框架兼容不同视频生成骨干，实验显示Wan2.1-VACE在问答任务上表现更好，而T2V在定位任务上更强。

3.5.3 时间步选择分析

消融实验发现（见图6）:
├─ k=0-100 (t=0.0-0.1): 性能较低，噪声不足
├─ k=200-400 (t=0.2-0.4): 性能峰值，几何信息最丰富 ⭐
├─ k=300 (t=0.3): 最优选择，平衡精度和抽象性
├─ k=600-800 (t=0.6-0.8): 性能下降，过于接近输出
└─ k=1000 (t=1.0): 性能最低，接近纯像素

理论解释:

早期阶段: 噪声水平高，模型主要学习去除粗糙伪影
中期阶段: 模型 actively 推理场景结构以恢复几何一致性
晚期阶段: 聚焦于纹理细节，空间信息已固化

3.5.4 DiT层选择

实验发现: 不同DiT层编码不同层次的信息

层范围	特征性质	适合任务
1-10层	低级特征（边缘、颜色）	基础视觉处理
15-25层	中级特征（结构、几何）	3D理解 ⭐
20层	最佳平衡点	默认选择
30-40层	高级语义	语义理解

3.6 数学符号速查表

符号	含义	维度/范围
$V$	输入视频	$\mathbb{R}^{T \times H \times W \times 3}$
$z_0$	干净潜在表示	潜在空间
$z_k$	加噪潜在表示（k步）	潜在空间
$K$	总时间步数	1000
$t_k$	归一化时间	$[0,1]$
$\epsilon$	高斯噪声	$\mathcal{N}(\mathbf{0}, \mathbf{I})$
$\Phi^{(l)}$	DiT第l层	-
$f_{\mathrm{gen}}$	生成特征	$\mathbb{R}^{T \times N \times D_{\mathrm{gen}}}$
$f_{\mathrm{sem}}$	语义特征	$\mathbb{R}^{T \times N \times D_{\mathrm{sem}}}$
$F_{\mathrm{gen}}, F_{\mathrm{sem}}$	投影后特征	$\mathbb{R}^{T \times N \times D_{\mathrm{llm}}}$
$g_i$	门控值	$[0,1]$
$F^{\mathrm{fused}}$	融合特征	$\mathbb{R}^{T \times N \times D_{\mathrm{llm}}}$

3.7 小结

VEGA-3D的技术方法论体现了一套完整且精巧的设计：

理论基础: 多视角一致性作为3D能力的可靠指标
核心创新: 噪声注入激活生成模型的隐式物理知识
关键技术: 自适应门控融合解决异构特征对齐问题
工程优化: 合理的超参数选择（k=300, l=20）最大化性能

这套方法论的成功在于：不是简单地堆叠模块，而是深入理解生成模型的工作原理，在其最富有信息量的阶段提取知识，并通过精巧的融合机制将其转化为下游任务可用的表征。