Logo
热心市民王先生

技术方法论详解

论文解读 技术架构 算法详解

VEGA-3D的技术架构、核心算法流程、关键技术细节以及公式解读

3.1 整体架构概览

VEGA-3D采用双分支视觉编码架构,将高级语义能力与密集3D结构先验有机结合。

3.1.1 架构设计图

flowchart TB
    subgraph Input["输入层"]
        V["视频序列 V ∈ ℝ^(T×H×W×3)"]
        T["文本指令"]
    end
    
    subgraph SemanticBranch["语义分支"]
        SE["SigLIP编码器"]
        SP["语义投影器 P_sem"]
        SF["语义特征 F_sem"]
    end
    
    subgraph GenerativeBranch["生成分支"]
        VAE["VAE编码器"]
        NI["噪声注入"]
        DiT["DiT骨干网络 (20层)"]
        GP["生成投影器 P_gen"]
        GF["生成特征 F_gen"]
    end
    
    subgraph Fusion["融合层"]
        AGF["自适应门控融合"]
        FF["融合特征 F_fused"]
    end
    
    subgraph Output["输出层"]
        LLM["MLLM"]
        O["响应输出"]
    end
    
    V --> SE
    SE --> SP
    SP --> SF
    
    V --> VAE
    VAE --> NI
    NI --> DiT
    DiT --> GP
    GP --> GF
    
    SF --> AGF
    GF --> AGF
    AGF --> FF
    
    T --> LLM
    FF --> LLM
    LLM --> O

3.1.2 核心设计原则

  1. 冻结预训练: 视频生成模型(Wan2.1-T2V 1.3B)权重完全冻结
  2. 轻量适配: 仅训练投影层(MLP)和门控网络
  3. 特征互补: 语义特征负责识别,生成特征负责空间定位
  4. 动态融合: Token级自适应权重,灵活应对不同任务

3.2 关键技术组件

3.2.1 多模态大语言模型基础

标准协议: 给定多模态输入(文本token x + 视觉输入V),MLLM处理流程:

视觉嵌入: v = f_proj(f_enc(V))

其中:
- f_enc: 视觉编码器(如SigLIP)
- f_proj: 投影器,将视觉特征映射到语言空间
- v: 视觉token序列

训练目标: 最大化响应token序列y的似然:

LCE(Θ)=i=1LlogpΘ(yiy<i,x,v)\mathcal{L}_{\mathrm{CE}}(\Theta) = -\sum_{i=1}^{L} \log p_{\Theta}(y_i \mid y_{<i}, \mathbf{x}, \mathbf{v})

问题分析:

  • 监督信号稀疏且离散
  • 空间错误(如”左”vs”右”)被当作普通token错误处理
  • 缺乏几何度量约束,导致标准判别编码器表现出”空间盲视”

3.2.2 视频扩散模型基础

模型选择: Wan2.1-T2V 1.3B

  • 架构: Diffusion Transformer (DiT)
  • 训练目标: Flow Matching
  • 参数规模: 1.3B
  • 文本条件: 简单文本提示接口

Flow Matching基础:

给定干净潜在视频 z0z_0,采样高斯噪声 ϵN(0,I)\epsilon \sim \mathcal{N}(\mathbf{0}, \mathbf{I}) 和时间 tU(0,1)t \sim \mathcal{U}(0,1),训练流网络 vψ()v_\psi(\cdot) 回归目标速度:

LFM(ψ)=Ez0,ϵ,t[utvψ(zt,t,c)22]\mathcal{L}_{\mathrm{FM}}(\psi) = \mathbb{E}_{z_0, \epsilon, t} \left[ \| \mathbf{u}_t - v_\psi(\mathbf{z}_t, t, \mathbf{c}) \|_2^2 \right]

其中:

  • ut=dztdt\mathbf{u}_t = \frac{\mathrm{d}\mathbf{z}_t}{\mathrm{d}t} 是目标速度
  • c\mathbf{c} 是条件信号(文本)
  • zt=(1t)z0+tϵ\mathbf{z}_t = (1-t) \cdot z_0 + t \cdot \epsilon 是加噪潜在表示

离散时间步实现: 使用离散时间步 k{0,,K}k \in \{0, \ldots, K\}K=1000K=1000),归一化时间为 tk=kKt_k = \frac{k}{K}


3.3 核心方法论

3.3.1 阶段一:3D感知分析

核心发现: 多视角特征一致性是几何能力的可靠指标

多视角对应分数(Multi-view Correspondence Score)

定义: 对于从V个视角观察的3D场景,将每个视角的编码器特征投影到共享的全局体素网格:

对于特定体素m,在两个不同视角 viv_ivjv_j 下观察,提取对应特征向量 hm,vi\mathbf{h}_{m,v_i}hm,vj\mathbf{h}_{m,v_j}

体素级一致性分数:

Svoxel(m)=hm,vihm,vjhm,vihm,vjS_{\text{voxel}}^{(m)} = \frac{\mathbf{h}_{m,v_i}^{\top} \mathbf{h}_{m,v_j}}{\|\mathbf{h}_{m,v_i}\| \|\mathbf{h}_{m,v_j}\|}

场景级分数: 对所有有效体素对取平均

关键洞察:

  • DiT模型一致性 > 96%
  • UNet模型一致性 ~ 78%
  • 一致性与下游3D性能强正相关

归一化总体分数(NOS)

将所有评估模型的性能指标归一化到[0,1],然后平均为单一标量,用于验证多视角一致性作为3D能力预测指标的可靠性。

3.3.2 阶段二:潜在世界模拟

核心思想: 静态潜在表示不足以激活生成模型的全部推理能力,需要通过噪声注入过程”唤醒”其物理理解。

噪声注入过程

给定输入视频序列 VRT×H×W×3\mathbf{V} \in \mathbb{R}^{T \times H \times W \times 3}

步骤1: VAE编码得到干净潜在表示 z0=E(V)\mathbf{z}_0 = E(\mathbf{V})

步骤2: 选择离散时间步 kk(默认k=300),定义归一化时间 tk=kKt_k = \frac{k}{K}

步骤3: 采样高斯噪声并构造加噪潜在表示 zk=(1tk)z0+tkϵ\mathbf{z}_k = (1-t_k) \cdot \mathbf{z}_0 + t_k \cdot \epsilon

其中 ϵN(0,I)\epsilon \sim \mathcal{N}(\mathbf{0}, \mathbf{I})

步骤4: 输入DiT骨干网络,使用空文本提示 fraw=Φ(l)(zk,k;ctext="")\mathbf{f}_{\mathrm{raw}} = \Phi^{(l)}(\mathbf{z}_k, k; \mathbf{c}_{\text{text}}="")

其中 ll 是特定中间层(默认第20层)

步骤5: 自适应平均池化匹配语义token维度 fgenRT×N×Dgen\mathbf{f}_{\mathrm{gen}} \in \mathbb{R}^{T \times N \times D_{\mathrm{gen}}}

关键超参数:

  • 时间步: k=300 (t=0.3)
  • DiT层: l=20
  • 体素大小: 0.1(用于对应分数计算)

3.3.3 阶段三:异构特征融合

挑战: 生成特征 fgen\mathbf{f}_{\mathrm{gen}}(连续物理空间)与语义特征 fsem\mathbf{f}_{\mathrm{sem}}(离散词汇空间)存在于根本不同的流形上。

独立投影

首先通过独立MLP投影器将两个流对齐到LLM的隐藏维度 DllmD_{\mathrm{llm}}

Fgen=Pgen(fgen)\mathbf{F}_{\mathrm{gen}} = P_{\mathrm{gen}}(\mathbf{f}_{\mathrm{gen}}) Fsem=Psem(fsem)\mathbf{F}_{\mathrm{sem}} = P_{\mathrm{sem}}(\mathbf{f}_{\mathrm{sem}})

其中 Fgen,FsemRT×N×Dllm\mathbf{F}_{\mathrm{gen}}, \mathbf{F}_{\mathrm{sem}} \in \mathbb{R}^{T \times N \times D_{\mathrm{llm}}}

自适应门控融合

门控计算:

对于第i个空间token,计算标量门控值 gi[0,1]g_i \in [0,1]

gi=σ(WgConcat(LN(Fgen,i),LN(Fsem,i))+bg)g_i = \sigma\left( \mathbf{W}_g^{\top} \cdot \mathrm{Concat}\left( \mathrm{LN}(\mathbf{F}_{\mathrm{gen},i}), \mathrm{LN}(\mathbf{F}_{\mathrm{sem},i}) \right) + b_g \right)

其中:

  • σ()\sigma(\cdot): Sigmoid函数
  • LN\mathrm{LN}: Layer Normalization
  • Wg\mathbf{W}_g: 可学习权重向量
  • bgb_g: 偏置项

融合特征:

Fifused=(1gi)Fgen,i+giFsem,i\mathbf{F}_i^{\mathrm{fused}} = (1-g_i) \cdot \mathbf{F}_{\mathrm{gen},i} + g_i \cdot \mathbf{F}_{\mathrm{sem},i}

门控机制解读:

graph LR
    A[输入特征] --> B{门控值g_i}
    B -->|g_i ≈ 0| C[优先生成特征]
    B -->|g_i ≈ 0.5| D[平衡融合]
    B -->|g_i ≈ 1| E[优先语义特征]
    
    C --> F[空间推理任务]
    E --> G[语义识别任务]

作用:

  • gig_i 充当语义-几何仲裁器
  • 空间推理任务 → 优先生成特征
  • 语义识别任务 → 优先语义特征

3.4 算法流程详解

3.4.1 训练流程

输入: 
  - 视频序列 V
  - 文本指令 T
  - 目标响应 Y

1. 特征提取:
   a. 语义特征: f_sem = SigLIP(V) → P_sem → F_sem
   b. 生成特征: 
      - z_0 = VAE_encode(V)
      - 采样 k=300, ε~N(0,I)
      - z_k = (1-t_k)*z_0 + t_k*ε
      - f_raw = DiT_layer20(z_k, empty_prompt)
      - f_gen = AdaptivePool(f_raw)
      - F_gen = P_gen(f_gen)

2. 特征融合:
   对每个token i:
     g_i = Sigmoid(W_g^T * Concat(LN(F_gen,i), LN(F_sem,i)) + b_g)
     F_fused,i = (1-g_i)*F_gen,i + g_i*F_sem,i

3. MLLM处理:
   Output = MLLM(T, F_fused)

4. 损失计算:
   L = CrossEntropy(Output, Y)

5. 反向传播更新:
   - 仅更新 P_gen, P_sem, 门控网络参数
   - SigLIP 和 DiT 保持冻结

3.4.2 推理流程

输入:
  - 视频序列 V
  - 文本查询 Q

1. 并行特征提取:
   - 语义分支: SigLIP(V) → P_sem
   - 生成分支: VAE(V) → NoiseInject(k=300) → DiT(l=20) → P_gen
   
2. 门控融合: 得到 F_fused

3. MLLM生成响应:
   Response = MLLM.generate(Q, F_fused)

4. 返回响应

3.5 关键技术细节

3.5.1 实现细节

训练配置:

  • 优化器: Adam
  • 批大小: 128
  • 预热比例: 0.03
  • 学习率:
    • 语言模型: 1×10^-5(最大)
    • 视觉骨干: 2×10^-6(最大)
  • 硬件: 8× H100 NVIDIA GPUs

数据预处理:

  • 每段扫描采样32帧构建多视角图像集
  • Flow Matching时间区间: t ∈ [0,1],离散化为K=1000步
  • 默认时间步索引: k=300(即t_k=0.3)

3.5.2 模型选择依据

为什么选择Wan2.1-T2V 1.3B?

  1. 简单文本条件接口: 易于控制和复用
  2. 强定位性能: 在定位为中心的任务上表现优异
  3. 开源可用: 便于社区复现和扩展
  4. DiT架构: 全局注意力机制捕获整体上下文

兼容性: 框架兼容不同视频生成骨干,实验显示Wan2.1-VACE在问答任务上表现更好,而T2V在定位任务上更强。

3.5.3 时间步选择分析

消融实验发现(见图6):
├─ k=0-100 (t=0.0-0.1): 性能较低,噪声不足
├─ k=200-400 (t=0.2-0.4): 性能峰值,几何信息最丰富 ⭐
├─ k=300 (t=0.3): 最优选择,平衡精度和抽象性
├─ k=600-800 (t=0.6-0.8): 性能下降,过于接近输出
└─ k=1000 (t=1.0): 性能最低,接近纯像素

理论解释:

  • 早期阶段: 噪声水平高,模型主要学习去除粗糙伪影
  • 中期阶段: 模型 actively 推理场景结构以恢复几何一致性
  • 晚期阶段: 聚焦于纹理细节,空间信息已固化

3.5.4 DiT层选择

实验发现: 不同DiT层编码不同层次的信息

层范围特征性质适合任务
1-10层低级特征(边缘、颜色)基础视觉处理
15-25层中级特征(结构、几何)3D理解 ⭐
20层最佳平衡点默认选择
30-40层高级语义语义理解

3.6 数学符号速查表

符号含义维度/范围
VV输入视频RT×H×W×3\mathbb{R}^{T \times H \times W \times 3}
z0z_0干净潜在表示潜在空间
zkz_k加噪潜在表示(k步)潜在空间
KK总时间步数1000
tkt_k归一化时间[0,1][0,1]
ϵ\epsilon高斯噪声N(0,I)\mathcal{N}(\mathbf{0}, \mathbf{I})
Φ(l)\Phi^{(l)}DiT第l层-
fgenf_{\mathrm{gen}}生成特征RT×N×Dgen\mathbb{R}^{T \times N \times D_{\mathrm{gen}}}
fsemf_{\mathrm{sem}}语义特征RT×N×Dsem\mathbb{R}^{T \times N \times D_{\mathrm{sem}}}
Fgen,FsemF_{\mathrm{gen}}, F_{\mathrm{sem}}投影后特征RT×N×Dllm\mathbb{R}^{T \times N \times D_{\mathrm{llm}}}
gig_i门控值[0,1][0,1]
FfusedF^{\mathrm{fused}}融合特征RT×N×Dllm\mathbb{R}^{T \times N \times D_{\mathrm{llm}}}

3.7 小结

VEGA-3D的技术方法论体现了一套完整且精巧的设计:

  1. 理论基础: 多视角一致性作为3D能力的可靠指标
  2. 核心创新: 噪声注入激活生成模型的隐式物理知识
  3. 关键技术: 自适应门控融合解决异构特征对齐问题
  4. 工程优化: 合理的超参数选择(k=300, l=20)最大化性能

这套方法论的成功在于:不是简单地堆叠模块,而是深入理解生成模型的工作原理,在其最富有信息量的阶段提取知识,并通过精巧的融合机制将其转化为下游任务可用的表征