研究方法

PEARL框架的技术架构、Dual-grained Memory System设计、以及Concept-aware Retrieval Algorithm机制

2.1 PEARL框架总览

2.1.1 设计目标

PEARL（PersonalizEd streAming video undeRstanding modeL）是一个免训练、即插即用的框架，旨在解决PSVU任务的核心挑战：

效率挑战：维护无限流历史与演化概念的高昂计算成本
架构挑战：保持流式视觉上下文并即时获取新概念，无需昂贵的重训练

2.1.2 核心创新

PEARL通过两个关键设计解决上述挑战：

flowchart TB
    subgraph "Dual-grained Memory System"
        A[Streaming Memory<br/>流式记忆] --> A1[增量归档<br/>连续视频片段]
        B[Concept Memory<br/>概念记忆] --> B1[动态注册<br/>用户定义概念]
    end
    
    subgraph "Concept-aware Retrieval"
        C[查询重写] --> D[概念感知检索]
        D --> E[历史证据召回]
    end
    
    A --> D
    B --> D

关键特性：

显式解耦：将概念中心知识与流式观测分离
增量归档：连续视频片段的渐进式存储
动态注册：用户定义概念的即时登记
精准检索：基于概念描述的查询重写与证据检索

2.1.3 系统架构

flowchart LR
    A[流式视频输入] --> B[场景检测<br/>PySceneDetect]
    B --> C[Streaming Memory]
    
    D[用户查询] --> E{查询类型}
    E -->|Concept-Definition| F[Concept Memory<br/>概念注册]
    E -->|Real-Time/Past-Time| G[Concept-aware<br/>Retrieval]
    
    F --> H[概念名称+<br/>视觉证据+<br/>文本描述]
    G --> I[检索相关概念]
    G --> J[检索历史片段]
    
    C --> J
    H --> I
    
    I --> K[VLM推理]
    J --> K
    D --> K
    
    K --> L[个性化响应]

2.2 Dual-grained Memory System

2.2.1 形式化定义

流式视频被定义为无限序列：

$V = [\mathcal{X}_1, \mathcal{X}_2, \dots]$

其中 $\mathcal{X}_i$ 表示代表语义场景的片段。

在时间戳 $t_c$ 通过指令引入新概念，形成演化概念集：

$\mathcal{C} = \{C_1, C_2, \dots\}$

对于时间 $t_q \geq t_c$ 发出的查询 $Q$ ，模型必须动态构建上下文生成响应：

$A = \mathcal{M}(\mathcal{C}_{sub}, \mathcal{V}_{context}, Q)$

其中：

$\mathcal{C}_{sub} \subseteq \mathcal{C}$ ：查询相关概念子集
$\mathcal{V}_{context}$ ：必要的视觉上下文

2.2.2 Streaming Memory（流式记忆）

功能：增量归档连续视频流，支持长期历史检索

工作机制：

flowchart TB
    A[连续视频流] --> B[场景边界检测]
    B --> C[片段分割<br/>𝒳₁, 𝒳₂, ...]
    C --> D[多模态嵌入模型<br/>f_emb]
    D --> E[计算嵌入<br/>𝐞ᵢ = f_emb(𝒳ᵢ)]
    E --> F[存储<br/>(𝒳ᵢ, 𝐞ᵢ)]
    F --> G[Streaming Memory]

技术细节：

场景检测：使用PySceneDetect检测场景边界
嵌入模型：Qwen3-VL-Embedding-2B（多模态嵌入）
存储格式：(视频片段 $\mathcal{X}_i$ , 嵌入向量 $\mathbf{e}_i$ ) 对
嵌入维度：捕获丰富语义信息，用于后续检索

2.2.3 Concept Memory（概念记忆）

功能：存储用户定义概念的结构化表示

三种查询类型的处理：

查询类型	处理方式	输出
Concept-Definition	创建新概念条目	概念名称+视觉证据+文本描述
Real-Time	检索当前场景相关概念	概念子集 $\mathcal{C}_{sub}$
Past-Time	检索历史证据+相关概念	$\mathcal{C}_{sub}$ + $\mathcal{V}_{context}$

概念条目结构：

当在时间戳 $t_c$ 发出Concept-Definition查询 $Q_{def}$ 时，创建包含三个组件的条目：

概念名称：用户定义的名称（如”XiaoJing”）
视觉证据：
- Frame-level：存储当前片段最后一帧
- Video-level：存储整个片段 $\mathcal{X}_{t_c}$
文本描述：基于视觉证据生成的紧凑描述

描述生成：使用标准化提示模板（见论文附录），由基础VLM生成，总结概念的显著特征。

flowchart LR
    A[用户指令] --> B[提取视觉证据]
    B --> C[当前片段]
    C --> D[Frame-level?<br/>取最后一帧]
    C --> E[Video-level?<br/>取整个片段]
    D --> F[生成文本描述]
    E --> F
    F --> G[Concept Memory<br/>条目]
    
    style G fill:#9f6

2.3 Concept-aware Retrieval Algorithm

2.3.1 检索流程

当用户在时间 $t_q$ 发出Real-Time或Past-Time查询时，模型需要三类信息：

查询 $Q$
从Concept Memory检索的相关概念子集 $\mathcal{C}_{sub}$
从Streaming Memory检索的视觉证据 $\mathcal{V}_{context}$

最终答案： $A = \mathcal{M}(\mathcal{C}_{sub}, \mathcal{V}_{context}, Q)$

2.3.2 概念检索（获取 $\mathcal{C}_{sub}$ ）

方法：关键词匹配

识别查询 $Q$ 中提及的概念名称
使用这些名称作为键，从Concept Memory检索对应条目
返回完整概念信息（名称+视觉证据+描述）

flowchart LR
    A[用户查询Q] --> B[提取概念名称]
    B --> C{概念A<br/>概念B}
    C --> D[Concept Memory]
    D --> E[检索条目A]
    D --> F[检索条目B]
    E --> G[概念子集<br/>𝒞_sub]
    F --> G

2.3.3 视觉证据检索（获取 $\mathcal{V}_{context}$ ）

核心创新：查询重写（Query Rewriting）

步骤：

查询重写：使用模型 $\mathcal{M}$ 将查询 $Q$ 重写为 $\tilde{Q}$ ，将概念名称替换为其关联描述

示例：
- 原查询：“What is XiaoJing wearing now?”
- 重写后：“What is the young woman with long black hair wearing now?”
嵌入计算：使用与Streaming Memory相同的多模态嵌入模型 $\mathbf{e}_Q = f_{\text{emb}}(\tilde{Q})$
相似度计算：计算 $\mathbf{e}_Q$ 与所有存储片段嵌入 $\{\mathbf{e}_i\}_{i \leq t_q}$ 的余弦相似度
Top-K选择：选择最相关的K个片段
上下文扩展：每个选中片段扩展相邻N个片段以捕获时序局部上下文
- Frame-level：N=1（扩展前后各1个片段）
- Video-level：N=0（不扩展，避免动作混淆）
形成 $\mathcal{V}_{context}$

flowchart TB
    A[用户查询Q] --> B[查询重写<br/>概念名→描述]
    B --> C[计算嵌入<br/>𝐞_Q = f_emb(Q̃)]
    C --> D[余弦相似度<br/>vs 所有片段]
    D --> E[Top-K选择]
    E --> F[上下文扩展<br/>±N片段]
    F --> G[视觉证据<br/>𝒱_context]

2.3.4 响应生成

将所有检索到的信息输入VLM：

$A = \mathcal{M}(\mathcal{C}_{sub}, \mathcal{V}_{context}, \mathcal{X}_{t_q}, Q)$

其中：

$\mathcal{C}_{sub}$ ：检索到的概念条目
$\mathcal{V}_{context}$ ：检索到的历史片段
$\mathcal{X}_{t_q}$ ：当前片段
$Q$ ：原始查询

优势：

保持实时响应能力（检索开销低）
最大化任务相关证据检索
无需参数更新即可实现个性化

2.4 PEARL-Bench基准设计

2.4.1 与现有基准对比

基准	模态	流式	多轮	Frame-level	Video-level	多概念
MyVLM	图像	✗	✗	✓	✗	✗
Yo’LLaVA	图像	✗	✗	✓	✗	✗
MC-LLaVA	图像	✗	✗	✓	✗	✓
PVChat	短视频	✗	✗	✓	✗	✓
PEARL-Bench	长视频	✓	✓	✓	✓	✓

2.4.2 数据构建流程

四阶段构建流程：

flowchart LR
    A[视频收集与过滤] --> B[Concept-Definition<br/>标注]
    B --> C[Real-Time<br/>标注]
    B --> D[Past-Time<br/>标注]
    C --> E[质量控制]
    D --> E
    
    style A fill:#e1f5ff
    style B fill:#e1f5ff
    style C fill:#fff4e1
    style D fill:#fff4e1
    style E fill:#e8f5e9

阶段1：视频收集与过滤

收集标准：

高动态性，具有实时理解需求
包含多个重复出现的、可清晰定义的个性化概念
分辨率不低于480p

数据来源：

Frame-level：动漫、电影、真人秀（多样化视觉风格）
Video-level：Mixamo数字人合成（8个角色×20个动作×20个场景）

阶段2-4：标注流程

Concept-Definition QA：

定位目标概念出现的多个时间戳
在每个时间戳发出注册问题（如”This is XiaoJing.”）
使用美国SSA数据库10k常用名随机替换，防止模型利用先验知识

Real-Time QA：

识别适合实时提问的时间戳
提出概念相关问题，生成多选题干扰项
排除无需概念知识即可回答的问题

Past-Time QA：

查询时间戳与历史证据时间戳配对
问题必须依赖检索历史证据才能回答
同样需要多选题干扰项

2.4.3 质量控制

双重保障机制：

自动化过滤：
- Real-Time：测试有/无概念提供的模型表现
- Past-Time：测试有/无历史证据的模型表现
- 过滤掉无需关键信息即可正确回答的”平凡”问题
人工验证：
- 10名研究人员（每人>1年多模态研究经验）
- 6人主标注，4人审核
- 多轮检查确保QA与时间戳准确对齐

人类评分作为Upper Bound：

人类表现：Frame-level 86.73%，Video-level 85.71%
证明任务在充分视觉信息下高度可解
与纯文本基线（接近随机）形成鲜明对比

2.5 实现细节

2.5.1 模型配置

组件	模型
多模态嵌入	Qwen3-VL-Embedding-2B
基础VLM（实验）	LLaVA-OV-7B, Qwen2-VL-7B, Qwen3-VL-8B
场景检测	PySceneDetect

2.5.2 关键超参数

参数	设置
Top-K检索	K=4
上下文扩展N	Frame-level: N=1, Video-level: N=0
采样率	1 FPS
评估策略	循环选项轮换（防止选项偏好偏见）

2.5.3 计算资源

GPU：NVIDIA H200
基线设置：
- Frame-level：均匀采样64帧
- Video-level：64秒窗口，1 FPS采样

2.6 方法优势总结

mindmap
  root((PEARL优势))
    免训练
      即插即用
      零额外训练成本
      适配多种架构
    双记忆系统
      显式解耦
      概念与流式分离
      精准检索
    高效检索
      查询重写
      低延迟开销
      实时响应
    任务覆盖
      Frame-level
      Video-level
      三类查询类型

核心创新点

Dual-grained Memory System：显式分离概念知识与流式观测，解决”维护无限流历史”与”即时获取新概念”的双重挑战
Concept-aware Retrieval：通过查询重写将个性化名称映射到描述性语义，使嵌入模型能够更有效地匹配证据
训练无关设计：无需参数更新即可增强现有VLM，具有极高的实用价值和部署便利性