研究方法
PEARL框架的技术架构、Dual-grained Memory System设计、以及Concept-aware Retrieval Algorithm机制
2.1 PEARL框架总览
2.1.1 设计目标
PEARL(PersonalizEd streAming video undeRstanding modeL)是一个免训练、即插即用的框架,旨在解决PSVU任务的核心挑战:
- 效率挑战:维护无限流历史与演化概念的高昂计算成本
- 架构挑战:保持流式视觉上下文并即时获取新概念,无需昂贵的重训练
2.1.2 核心创新
PEARL通过两个关键设计解决上述挑战:
flowchart TB
subgraph "Dual-grained Memory System"
A[Streaming Memory<br/>流式记忆] --> A1[增量归档<br/>连续视频片段]
B[Concept Memory<br/>概念记忆] --> B1[动态注册<br/>用户定义概念]
end
subgraph "Concept-aware Retrieval"
C[查询重写] --> D[概念感知检索]
D --> E[历史证据召回]
end
A --> D
B --> D
关键特性:
- 显式解耦:将概念中心知识与流式观测分离
- 增量归档:连续视频片段的渐进式存储
- 动态注册:用户定义概念的即时登记
- 精准检索:基于概念描述的查询重写与证据检索
2.1.3 系统架构
flowchart LR
A[流式视频输入] --> B[场景检测<br/>PySceneDetect]
B --> C[Streaming Memory]
D[用户查询] --> E{查询类型}
E -->|Concept-Definition| F[Concept Memory<br/>概念注册]
E -->|Real-Time/Past-Time| G[Concept-aware<br/>Retrieval]
F --> H[概念名称+<br/>视觉证据+<br/>文本描述]
G --> I[检索相关概念]
G --> J[检索历史片段]
C --> J
H --> I
I --> K[VLM推理]
J --> K
D --> K
K --> L[个性化响应]
2.2 Dual-grained Memory System
2.2.1 形式化定义
流式视频被定义为无限序列:
其中 表示代表语义场景的片段。
在时间戳 通过指令引入新概念,形成演化概念集:
对于时间 发出的查询 ,模型必须动态构建上下文生成响应:
其中:
- :查询相关概念子集
- :必要的视觉上下文
2.2.2 Streaming Memory(流式记忆)
功能:增量归档连续视频流,支持长期历史检索
工作机制:
flowchart TB
A[连续视频流] --> B[场景边界检测]
B --> C[片段分割<br/>𝒳₁, 𝒳₂, ...]
C --> D[多模态嵌入模型<br/>f_emb]
D --> E[计算嵌入<br/>𝐞ᵢ = f_emb(𝒳ᵢ)]
E --> F[存储<br/>(𝒳ᵢ, 𝐞ᵢ)]
F --> G[Streaming Memory]
技术细节:
- 场景检测:使用PySceneDetect检测场景边界
- 嵌入模型:Qwen3-VL-Embedding-2B(多模态嵌入)
- 存储格式:(视频片段 , 嵌入向量 ) 对
- 嵌入维度:捕获丰富语义信息,用于后续检索
2.2.3 Concept Memory(概念记忆)
功能:存储用户定义概念的结构化表示
三种查询类型的处理:
| 查询类型 | 处理方式 | 输出 |
|---|---|---|
| Concept-Definition | 创建新概念条目 | 概念名称+视觉证据+文本描述 |
| Real-Time | 检索当前场景相关概念 | 概念子集 |
| Past-Time | 检索历史证据+相关概念 | + |
概念条目结构:
当在时间戳 发出Concept-Definition查询 时,创建包含三个组件的条目:
- 概念名称:用户定义的名称(如”XiaoJing”)
- 视觉证据:
- Frame-level:存储当前片段最后一帧
- Video-level:存储整个片段
- 文本描述:基于视觉证据生成的紧凑描述
描述生成:使用标准化提示模板(见论文附录),由基础VLM生成,总结概念的显著特征。
flowchart LR
A[用户指令] --> B[提取视觉证据]
B --> C[当前片段]
C --> D[Frame-level?<br/>取最后一帧]
C --> E[Video-level?<br/>取整个片段]
D --> F[生成文本描述]
E --> F
F --> G[Concept Memory<br/>条目]
style G fill:#9f6
2.3 Concept-aware Retrieval Algorithm
2.3.1 检索流程
当用户在时间 发出Real-Time或Past-Time查询时,模型需要三类信息:
- 查询
- 从Concept Memory检索的相关概念子集
- 从Streaming Memory检索的视觉证据
最终答案:
2.3.2 概念检索(获取 )
方法:关键词匹配
- 识别查询 中提及的概念名称
- 使用这些名称作为键,从Concept Memory检索对应条目
- 返回完整概念信息(名称+视觉证据+描述)
flowchart LR
A[用户查询Q] --> B[提取概念名称]
B --> C{概念A<br/>概念B}
C --> D[Concept Memory]
D --> E[检索条目A]
D --> F[检索条目B]
E --> G[概念子集<br/>𝒞_sub]
F --> G
2.3.3 视觉证据检索(获取 )
核心创新:查询重写(Query Rewriting)
步骤:
-
查询重写:使用模型 将查询 重写为 ,将概念名称替换为其关联描述
示例:
- 原查询:“What is XiaoJing wearing now?”
- 重写后:“What is the young woman with long black hair wearing now?”
-
嵌入计算:使用与Streaming Memory相同的多模态嵌入模型
-
相似度计算:计算 与所有存储片段嵌入 的余弦相似度
-
Top-K选择:选择最相关的K个片段
-
上下文扩展:每个选中片段扩展相邻N个片段以捕获时序局部上下文
- Frame-level:N=1(扩展前后各1个片段)
- Video-level:N=0(不扩展,避免动作混淆)
-
形成
flowchart TB
A[用户查询Q] --> B[查询重写<br/>概念名→描述]
B --> C[计算嵌入<br/>𝐞_Q = f_emb(Q̃)]
C --> D[余弦相似度<br/>vs 所有片段]
D --> E[Top-K选择]
E --> F[上下文扩展<br/>±N片段]
F --> G[视觉证据<br/>𝒱_context]
2.3.4 响应生成
将所有检索到的信息输入VLM:
其中:
- :检索到的概念条目
- :检索到的历史片段
- :当前片段
- :原始查询
优势:
- 保持实时响应能力(检索开销低)
- 最大化任务相关证据检索
- 无需参数更新即可实现个性化
2.4 PEARL-Bench基准设计
2.4.1 与现有基准对比
| 基准 | 模态 | 流式 | 多轮 | Frame-level | Video-level | 多概念 |
|---|---|---|---|---|---|---|
| MyVLM | 图像 | ✗ | ✗ | ✓ | ✗ | ✗ |
| Yo’LLaVA | 图像 | ✗ | ✗ | ✓ | ✗ | ✗ |
| MC-LLaVA | 图像 | ✗ | ✗ | ✓ | ✗ | ✓ |
| PVChat | 短视频 | ✗ | ✗ | ✓ | ✗ | ✓ |
| PEARL-Bench | 长视频 | ✓ | ✓ | ✓ | ✓ | ✓ |
2.4.2 数据构建流程
四阶段构建流程:
flowchart LR
A[视频收集与过滤] --> B[Concept-Definition<br/>标注]
B --> C[Real-Time<br/>标注]
B --> D[Past-Time<br/>标注]
C --> E[质量控制]
D --> E
style A fill:#e1f5ff
style B fill:#e1f5ff
style C fill:#fff4e1
style D fill:#fff4e1
style E fill:#e8f5e9
阶段1:视频收集与过滤
收集标准:
- 高动态性,具有实时理解需求
- 包含多个重复出现的、可清晰定义的个性化概念
- 分辨率不低于480p
数据来源:
- Frame-level:动漫、电影、真人秀(多样化视觉风格)
- Video-level:Mixamo数字人合成(8个角色×20个动作×20个场景)
阶段2-4:标注流程
Concept-Definition QA:
- 定位目标概念出现的多个时间戳
- 在每个时间戳发出注册问题(如”This is XiaoJing.”)
- 使用美国SSA数据库10k常用名随机替换,防止模型利用先验知识
Real-Time QA:
- 识别适合实时提问的时间戳
- 提出概念相关问题,生成多选题干扰项
- 排除无需概念知识即可回答的问题
Past-Time QA:
- 查询时间戳与历史证据时间戳配对
- 问题必须依赖检索历史证据才能回答
- 同样需要多选题干扰项
2.4.3 质量控制
双重保障机制:
-
自动化过滤:
- Real-Time:测试有/无概念提供的模型表现
- Past-Time:测试有/无历史证据的模型表现
- 过滤掉无需关键信息即可正确回答的”平凡”问题
-
人工验证:
- 10名研究人员(每人>1年多模态研究经验)
- 6人主标注,4人审核
- 多轮检查确保QA与时间戳准确对齐
人类评分作为Upper Bound:
- 人类表现:Frame-level 86.73%,Video-level 85.71%
- 证明任务在充分视觉信息下高度可解
- 与纯文本基线(接近随机)形成鲜明对比
2.5 实现细节
2.5.1 模型配置
| 组件 | 模型 |
|---|---|
| 多模态嵌入 | Qwen3-VL-Embedding-2B |
| 基础VLM(实验) | LLaVA-OV-7B, Qwen2-VL-7B, Qwen3-VL-8B |
| 场景检测 | PySceneDetect |
2.5.2 关键超参数
| 参数 | 设置 |
|---|---|
| Top-K检索 | K=4 |
| 上下文扩展N | Frame-level: N=1, Video-level: N=0 |
| 采样率 | 1 FPS |
| 评估策略 | 循环选项轮换(防止选项偏好偏见) |
2.5.3 计算资源
- GPU:NVIDIA H200
- 基线设置:
- Frame-level:均匀采样64帧
- Video-level:64秒窗口,1 FPS采样
2.6 方法优势总结
mindmap
root((PEARL优势))
免训练
即插即用
零额外训练成本
适配多种架构
双记忆系统
显式解耦
概念与流式分离
精准检索
高效检索
查询重写
低延迟开销
实时响应
任务覆盖
Frame-level
Video-level
三类查询类型
核心创新点
-
Dual-grained Memory System:显式分离概念知识与流式观测,解决”维护无限流历史”与”即时获取新概念”的双重挑战
-
Concept-aware Retrieval:通过查询重写将个性化名称映射到描述性语义,使嵌入模型能够更有效地匹配证据
-
训练无关设计:无需参数更新即可增强现有VLM,具有极高的实用价值和部署便利性