研究背景与文献综述

PSVU任务的提出背景、现有VLM个性化方法的局限、以及相关工作的发展历程

1.1 研究问题与动机

人类认知的流式本质

人类对新概念的认知本质上是一个流式过程（streaming process）：我们持续识别新的对象或身份，并随时间更新记忆。这种认知模式与当前多模态个性化方法存在根本性的脱节——现有方法主要局限于静态图像或离线视频处理。

这种脱节产生了一个关键问题：连续视觉输入与即时现实世界反馈被割裂，限制了AI助手提供实时、交互式个性化响应的能力。论文作者指出，弥合这一差距不仅是技术进步，更是下一代个性化AI助手的必要前提。

实际应用场景的需求

论文举了一个生动的例子来说明这种需求：

个性化健身指导场景：AI助手需要持续监控视频流中用户的特定举重动作，提供即时的定制化姿势纠正。

这个场景揭示了三个关键需求：

流式输入处理：能够处理连续视频流，而非预录制的短视频
动态概念定义：用户可以在任意时刻定义新概念（如”这是我的标准深蹲姿势”）
实时多轮交互：支持基于已定义概念的开放式对话

flowchart LR
    A[传统方法] --> B[静态图像<br/>Yo'LLaVA/MC-LLaVA]
    A --> C[离线视频<br/>PVChat]
    D[PSVU新方法] --> E[流式视频<br/>连续输入]
    D --> F[动态概念<br/>即时定义]
    D --> G[实时交互<br/>多轮对话]
    
    style A fill:#f96
    style D fill:#9f6

1.2 现有方法的局限性

1.2.1 个性化图像理解

现有VLM个性化研究主要集中在图像领域，可分为三类范式：

范式	代表工作	核心局限
微调式	MyVLM, Yo’LLaVA, MC-LLaVA	需要训练，仅限于静态图像，无法泛化到动态视频
RAG式	RAP, Jarvis	依赖检索增强，但缺乏时序推理能力
强化学习	Repic, M2A	训练复杂，实时性差

这些方法的共同问题是局限于静态图像，无法处理动态视频域的时间连续性。

1.2.2 统一理解与生成

部分研究尝试统一个性化理解与生成（如Nguyen et al., 2025; An et al., 2025），但这些方法严重依赖预定义概念，与真实世界中灵活的用户交互需求相矛盾。

1.2.3 个性化视频理解

在视频理解领域：

早期探索（Yeh et al., 2023）：大多局限于个性化检索任务
PVChat（Shi et al., 2025）：首次关注个性化VQA，但严格限于离线场景，仅支持单轮交互，无法处理流式输入

1.2.4 流式视频理解

流式视频理解领域取得了显著进展（如StreamingBench, TimeChat, StreamForest等），但这些方法对用户定义的概念缺乏感知能力。

关键缺口总结

flowchart TD
    subgraph "现有方法"
        A[个性化图像理解] --> A1[静态图像<br/>❌无视频]
        B[个性化视频理解] --> B1[离线短视频<br/>❌无流式]
        C[流式视频理解] --> C1[无个性化<br/>❌无概念]
    end
    
    subgraph "PSVU目标"
        D[流式输入<br/>✓] 
        E[实时交互<br/>✓]
        F[动态概念<br/>✓]
    end
    
    A1 --> G{缺口}
    B1 --> G
    C1 --> G
    G --> D
    G --> E
    G --> F

现有方法都无法同时满足：

✗ 实时响应需求
✗ 流式视频输入处理
✗ 灵活概念定义能力

1.3 研究空白与贡献

1.3.1 正式定义PSVU任务

本文首次提出并正式定义了个性化流式视频理解（PSVU）任务，填补了上述研究空白。

PSVU任务核心特征：

连续时序精度：要求模型在持续流中精确时间戳处定位和推理个性化概念
交互式概念定义：挑战模型动态掌握即时定义的用户特定概念，而非依赖预定义池
多轮对话支持：支持灵活的任意未来时间步概念定义和查询

1.3.2 三类查询定义

PSVU任务定义了三类查询：

查询类型	描述	能力要求
Concept-Definition QA	在特定时间戳引入新概念	概念注册与记忆
Real-Time QA	查询已建立概念的即时状态	当前场景理解
Past-Time QA	查询概念的历史状态或活动	长期时序推理、精确证据检索

1.3.3 本文三大贡献

新任务与基准：首次提出PSVU任务，并引入PEARL-Bench——首个专门针对该挑战性场景的综合基准
新框架：提出PEARL——免训练、即插即用方法，在3种不同架构上证明有效性和鲁棒性
SOTA性能：在8个离线和在线视频理解方法上达到SOTA，推动VLM个性化领域发展

1.4 相关工作深度回顾

1.4.1 Vision-Language Models发展

近期VLM能力迅速提升：

InternVL3（Wang et al., 2025）
Qwen3-VL（Bai et al., 2025）
LLaVA（Li et al., 2024）
MiniCPM（Yu et al., 2025）
Gemini 3（2025）

这些进展为个性化应用奠定了基础，但如何释放其服务个性化AI助手的潜力仍是开放问题。

1.4.2 个性化VLM分类

mindmap
  root((个性化VLM))
    图像理解
      微调式
        MyVLM
        Yo'LLaVA
        MC-LLaVA
      RAG式
        RAP
        Jarvis
      强化学习
        Repic
        M2A
    统一理解+生成
      Nguyen 2025
      An 2025
      Zhong 2026
    视频理解
      早期检索
        Yeh 2023
      离线VQA
        PVChat
    流式视频
      StreamingBench
      TimeChat
      StreamForest
      RTV

1.4.3 关键技术演进

记忆机制的发展：

早期：固定长度上下文窗口（64-128 tokens）
进展：压缩历史信息到固定大小状态（如StreamForest）
本文创新：显式分离概念记忆与流式记忆，支持精确检索

概念定义方式：

预定义池：MyVLM, UnifyBench等需要预定义概念集合
动态定义：PSVU支持任意时刻动态引入新概念

交互模式：

单轮：大多数现有方法仅支持单轮问答
多轮：PSVU支持多轮对话，概念可逐步建立和引用

1.5 研究意义

1.5.1 理论意义

PSVU任务的提出重新定义了个性化视频理解的边界：

从”静态/离线”扩展到”流式/在线”
从”预定义概念”扩展到”动态定义”
从”单轮交互”扩展到”多轮对话”

1.5.2 实践意义

为下一代交互式AI助手铺平道路：

智能家居：持续理解家庭成员活动，提供个性化服务
健康监测：实时分析用户动作，提供即时反馈
教育培训：个性化学习助手，动态适应学习者需求
虚拟陪伴：持续学习用户偏好，提供定制化交互

1.5.3 领域影响

PEARL-Bench的发布为社区提供了：

标准化的评估基准
清晰的任务定义
可靠的性能 upper bound（人类评分86.73%）

这将推动更多研究者进入该领域，加速技术发展。

参考资料

[An et al., 2024] MC-LLaVA: Multi-Concept Personalization in LLaVA
[Nguyen et al., 2024] Yo’LLaVA: Your Personalized LLaVA
[Shi et al., 2025] PVChat: Personalized Video Chat
[Yeh et al., 2023] Meta-learning for Personalized Video Retrieval
[Li et al., 2024] LLaVA: Large Language and Vision Assistant
[Wang et al., 2025] InternVL3: Exploring Advanced Training Paradigms
[Bai et al., 2025] Qwen3-VL: Technical Report
[Di et al., 2025] Streaming Video Understanding
[Yao et al., 2025] TimeChat: Time-sensitive Multimodal Conversations
[Zeng et al., 2025] StreamForest: Efficient Streaming Video Understanding