Logo
热心市民王先生

研究方法

PEARL框架的技术架构、Dual-grained Memory System设计、以及Concept-aware Retrieval Algorithm机制

2.1 PEARL框架总览

2.1.1 设计目标

PEARL(PersonalizEd streAming video undeRstanding modeL)是一个免训练、即插即用的框架,旨在解决PSVU任务的核心挑战:

  1. 效率挑战:维护无限流历史与演化概念的高昂计算成本
  2. 架构挑战:保持流式视觉上下文并即时获取新概念,无需昂贵的重训练

2.1.2 核心创新

PEARL通过两个关键设计解决上述挑战:

flowchart TB
    subgraph "Dual-grained Memory System"
        A[Streaming Memory<br/>流式记忆] --> A1[增量归档<br/>连续视频片段]
        B[Concept Memory<br/>概念记忆] --> B1[动态注册<br/>用户定义概念]
    end
    
    subgraph "Concept-aware Retrieval"
        C[查询重写] --> D[概念感知检索]
        D --> E[历史证据召回]
    end
    
    A --> D
    B --> D

关键特性

  • 显式解耦:将概念中心知识与流式观测分离
  • 增量归档:连续视频片段的渐进式存储
  • 动态注册:用户定义概念的即时登记
  • 精准检索:基于概念描述的查询重写与证据检索

2.1.3 系统架构

flowchart LR
    A[流式视频输入] --> B[场景检测<br/>PySceneDetect]
    B --> C[Streaming Memory]
    
    D[用户查询] --> E{查询类型}
    E -->|Concept-Definition| F[Concept Memory<br/>概念注册]
    E -->|Real-Time/Past-Time| G[Concept-aware<br/>Retrieval]
    
    F --> H[概念名称+<br/>视觉证据+<br/>文本描述]
    G --> I[检索相关概念]
    G --> J[检索历史片段]
    
    C --> J
    H --> I
    
    I --> K[VLM推理]
    J --> K
    D --> K
    
    K --> L[个性化响应]

2.2 Dual-grained Memory System

2.2.1 形式化定义

流式视频被定义为无限序列:

V=[X1,X2,]V = [\mathcal{X}_1, \mathcal{X}_2, \dots]

其中 Xi\mathcal{X}_i 表示代表语义场景的片段。

在时间戳 tct_c 通过指令引入新概念,形成演化概念集:

C={C1,C2,}\mathcal{C} = \{C_1, C_2, \dots\}

对于时间 tqtct_q \geq t_c 发出的查询 QQ,模型必须动态构建上下文生成响应:

A=M(Csub,Vcontext,Q)A = \mathcal{M}(\mathcal{C}_{sub}, \mathcal{V}_{context}, Q)

其中:

  • CsubC\mathcal{C}_{sub} \subseteq \mathcal{C}:查询相关概念子集
  • Vcontext\mathcal{V}_{context}:必要的视觉上下文

2.2.2 Streaming Memory(流式记忆)

功能:增量归档连续视频流,支持长期历史检索

工作机制

flowchart TB
    A[连续视频流] --> B[场景边界检测]
    B --> C[片段分割<br/>𝒳₁, 𝒳₂, ...]
    C --> D[多模态嵌入模型<br/>f_emb]
    D --> E[计算嵌入<br/>𝐞ᵢ = f_emb(𝒳ᵢ)]
    E --> F[存储<br/>(𝒳ᵢ, 𝐞ᵢ)]
    F --> G[Streaming Memory]

技术细节

  • 场景检测:使用PySceneDetect检测场景边界
  • 嵌入模型:Qwen3-VL-Embedding-2B(多模态嵌入)
  • 存储格式:(视频片段 Xi\mathcal{X}_i, 嵌入向量 ei\mathbf{e}_i) 对
  • 嵌入维度:捕获丰富语义信息,用于后续检索

2.2.3 Concept Memory(概念记忆)

功能:存储用户定义概念的结构化表示

三种查询类型的处理

查询类型处理方式输出
Concept-Definition创建新概念条目概念名称+视觉证据+文本描述
Real-Time检索当前场景相关概念概念子集 Csub\mathcal{C}_{sub}
Past-Time检索历史证据+相关概念Csub\mathcal{C}_{sub} + Vcontext\mathcal{V}_{context}

概念条目结构

当在时间戳 tct_c 发出Concept-Definition查询 QdefQ_{def} 时,创建包含三个组件的条目:

  1. 概念名称:用户定义的名称(如”XiaoJing”)
  2. 视觉证据
    • Frame-level:存储当前片段最后一帧
    • Video-level:存储整个片段 Xtc\mathcal{X}_{t_c}
  3. 文本描述:基于视觉证据生成的紧凑描述

描述生成:使用标准化提示模板(见论文附录),由基础VLM生成,总结概念的显著特征。

flowchart LR
    A[用户指令] --> B[提取视觉证据]
    B --> C[当前片段]
    C --> D[Frame-level?<br/>取最后一帧]
    C --> E[Video-level?<br/>取整个片段]
    D --> F[生成文本描述]
    E --> F
    F --> G[Concept Memory<br/>条目]
    
    style G fill:#9f6

2.3 Concept-aware Retrieval Algorithm

2.3.1 检索流程

当用户在时间 tqt_q 发出Real-Time或Past-Time查询时,模型需要三类信息:

  1. 查询 QQ
  2. 从Concept Memory检索的相关概念子集 Csub\mathcal{C}_{sub}
  3. 从Streaming Memory检索的视觉证据 Vcontext\mathcal{V}_{context}

最终答案:A=M(Csub,Vcontext,Q)A = \mathcal{M}(\mathcal{C}_{sub}, \mathcal{V}_{context}, Q)

2.3.2 概念检索(获取 Csub\mathcal{C}_{sub}

方法:关键词匹配

  1. 识别查询 QQ 中提及的概念名称
  2. 使用这些名称作为键,从Concept Memory检索对应条目
  3. 返回完整概念信息(名称+视觉证据+描述)
flowchart LR
    A[用户查询Q] --> B[提取概念名称]
    B --> C{概念A<br/>概念B}
    C --> D[Concept Memory]
    D --> E[检索条目A]
    D --> F[检索条目B]
    E --> G[概念子集<br/>𝒞_sub]
    F --> G

2.3.3 视觉证据检索(获取 Vcontext\mathcal{V}_{context}

核心创新:查询重写(Query Rewriting)

步骤

  1. 查询重写:使用模型 M\mathcal{M} 将查询 QQ 重写为 Q~\tilde{Q},将概念名称替换为其关联描述

    示例:

    • 原查询:“What is XiaoJing wearing now?”
    • 重写后:“What is the young woman with long black hair wearing now?”
  2. 嵌入计算:使用与Streaming Memory相同的多模态嵌入模型 eQ=femb(Q~)\mathbf{e}_Q = f_{\text{emb}}(\tilde{Q})

  3. 相似度计算:计算 eQ\mathbf{e}_Q 与所有存储片段嵌入 {ei}itq\{\mathbf{e}_i\}_{i \leq t_q} 的余弦相似度

  4. Top-K选择:选择最相关的K个片段

  5. 上下文扩展:每个选中片段扩展相邻N个片段以捕获时序局部上下文

    • Frame-level:N=1(扩展前后各1个片段)
    • Video-level:N=0(不扩展,避免动作混淆)
  6. 形成 Vcontext\mathcal{V}_{context}

flowchart TB
    A[用户查询Q] --> B[查询重写<br/>概念名→描述]
    B --> C[计算嵌入<br/>𝐞_Q = f_emb(Q̃)]
    C --> D[余弦相似度<br/>vs 所有片段]
    D --> E[Top-K选择]
    E --> F[上下文扩展<br/>±N片段]
    F --> G[视觉证据<br/>𝒱_context]

2.3.4 响应生成

将所有检索到的信息输入VLM:

A=M(Csub,Vcontext,Xtq,Q)A = \mathcal{M}(\mathcal{C}_{sub}, \mathcal{V}_{context}, \mathcal{X}_{t_q}, Q)

其中:

  • Csub\mathcal{C}_{sub}:检索到的概念条目
  • Vcontext\mathcal{V}_{context}:检索到的历史片段
  • Xtq\mathcal{X}_{t_q}:当前片段
  • QQ:原始查询

优势

  • 保持实时响应能力(检索开销低)
  • 最大化任务相关证据检索
  • 无需参数更新即可实现个性化

2.4 PEARL-Bench基准设计

2.4.1 与现有基准对比

基准模态流式多轮Frame-levelVideo-level多概念
MyVLM图像
Yo’LLaVA图像
MC-LLaVA图像
PVChat短视频
PEARL-Bench长视频

2.4.2 数据构建流程

四阶段构建流程

flowchart LR
    A[视频收集与过滤] --> B[Concept-Definition<br/>标注]
    B --> C[Real-Time<br/>标注]
    B --> D[Past-Time<br/>标注]
    C --> E[质量控制]
    D --> E
    
    style A fill:#e1f5ff
    style B fill:#e1f5ff
    style C fill:#fff4e1
    style D fill:#fff4e1
    style E fill:#e8f5e9

阶段1:视频收集与过滤

收集标准

  1. 高动态性,具有实时理解需求
  2. 包含多个重复出现的、可清晰定义的个性化概念
  3. 分辨率不低于480p

数据来源

  • Frame-level:动漫、电影、真人秀(多样化视觉风格)
  • Video-level:Mixamo数字人合成(8个角色×20个动作×20个场景)

阶段2-4:标注流程

Concept-Definition QA

  • 定位目标概念出现的多个时间戳
  • 在每个时间戳发出注册问题(如”This is XiaoJing.”)
  • 使用美国SSA数据库10k常用名随机替换,防止模型利用先验知识

Real-Time QA

  • 识别适合实时提问的时间戳
  • 提出概念相关问题,生成多选题干扰项
  • 排除无需概念知识即可回答的问题

Past-Time QA

  • 查询时间戳与历史证据时间戳配对
  • 问题必须依赖检索历史证据才能回答
  • 同样需要多选题干扰项

2.4.3 质量控制

双重保障机制

  1. 自动化过滤

    • Real-Time:测试有/无概念提供的模型表现
    • Past-Time:测试有/无历史证据的模型表现
    • 过滤掉无需关键信息即可正确回答的”平凡”问题
  2. 人工验证

    • 10名研究人员(每人>1年多模态研究经验)
    • 6人主标注,4人审核
    • 多轮检查确保QA与时间戳准确对齐

人类评分作为Upper Bound

  • 人类表现:Frame-level 86.73%,Video-level 85.71%
  • 证明任务在充分视觉信息下高度可解
  • 与纯文本基线(接近随机)形成鲜明对比

2.5 实现细节

2.5.1 模型配置

组件模型
多模态嵌入Qwen3-VL-Embedding-2B
基础VLM(实验)LLaVA-OV-7B, Qwen2-VL-7B, Qwen3-VL-8B
场景检测PySceneDetect

2.5.2 关键超参数

参数设置
Top-K检索K=4
上下文扩展NFrame-level: N=1, Video-level: N=0
采样率1 FPS
评估策略循环选项轮换(防止选项偏好偏见)

2.5.3 计算资源

  • GPU:NVIDIA H200
  • 基线设置
    • Frame-level:均匀采样64帧
    • Video-level:64秒窗口,1 FPS采样

2.6 方法优势总结

mindmap
  root((PEARL优势))
    免训练
      即插即用
      零额外训练成本
      适配多种架构
    双记忆系统
      显式解耦
      概念与流式分离
      精准检索
    高效检索
      查询重写
      低延迟开销
      实时响应
    任务覆盖
      Frame-level
      Video-level
      三类查询类型

核心创新点

  1. Dual-grained Memory System:显式分离概念知识与流式观测,解决”维护无限流历史”与”即时获取新概念”的双重挑战

  2. Concept-aware Retrieval:通过查询重写将个性化名称映射到描述性语义,使嵌入模型能够更有效地匹配证据

  3. 训练无关设计:无需参数更新即可增强现有VLM,具有极高的实用价值和部署便利性