Logo
热心市民王先生

核心发现

PEARL-Bench基准详情、主实验结果、消融实验分析,以及与各类基线模型的对比

3.1 PEARL-Bench基准统计

3.1.1 数据集规模

pie title PEARL-Bench 数据分布
    "Frame-level" : 2173
    "Video-level" : 待估算
统计指标Frame-levelVideo-level总计
视频数量约66个约66个132个
标注数量--2,173个
平均视频时长1,458秒1,458秒约24分钟
概念来源动漫/电影/真人秀数字人合成多样化

3.1.2 标注类型分布

PEARL-Bench包含三类标注:

标注类型作用是否参与评估
Concept-Definition QA概念注册✗ 不参与评分
Real-Time QA实时状态查询✓ 参与评分
Past-Time QA历史状态查询✓ 参与评分

3.1.3 数据来源多样性

Frame-level数据源

  • 动漫(Anime):多样化视觉风格
  • 电影(Movies):专业制作质量
  • 真人秀(Reality Shows):真实场景动态

Video-level数据源

  • Mixamo数字人合成
  • 8个不同角色 × 20个独特动作 × 20个背景场景
  • 确保动作概念的多样性和视觉丰富度

3.1.4 命名策略

使用美国社会保障局(SSA)数据库的10,000个常用名随机替换原始概念名称:

目的:防止模型利用先验知识识别特定概念(如”皮卡丘”或”奥巴马”)

优势:增强基准的鲁棒性,确保评估的是真正的个性化能力而非记忆能力

3.2 主实验结果

3.2.1 Upper Bound与Lower Bound

人类表现(Upper Bound)

  • Frame-level:Real-Time 87.92%,Past-Time 85.54%,平均 86.73%
  • Video-level:Real-Time 85.71%

纯文本基线(Lower Bound)

  • 使用Qwen3-VL-8B(纯文本能力)
  • 表现接近随机猜测
  • 结论:任务必须依赖视觉信息,无法通过文本先验解决
bar title 准确率范围
    y-axis 准确率 %
    x-axis ["Text-only<br/>Lower Bound", "Offline<br/>Models", "Online<br/>Models", "PEARL<br/>(Ours)", "Human<br/>Upper Bound"]
    bar ["25", "45", "55", "68", "87"]

3.2.2 Frame-level结果(与离线基线对比)

模型Real-TimePast-Time平均相比基线提升
LLaVA-OV-7B (离线)45.76%38.46%42.11%-
LLaVA-OV-7B + PEARL53.68%48.13%50.94%+8.83%
Qwen2-VL-7B (离线)46.73%36.56%41.65%-
Qwen2-VL-7B + PEARL53.40%47.48%50.44%+8.79%
Qwen3-VL-8B (离线)51.47%38.18%44.83%-
Qwen3-VL-8B + PEARL64.18%54.80%59.49%+14.66%
Gemini3-pro-preview--54.97%-
Qwen3-VL-8B + PEARL64.18%54.80%59.49%vs Gemini +4.52%

关键发现

  1. 一致提升:PEARL在所有3种架构上均带来显著提升,平均提升13.79%
  2. 超越商业模型:Qwen3-VL-8B+PEARL(59.49%)超过Gemini3-pro-preview(54.97%)4.52%
  3. 架构无关性:证明PEARL设计的通用性和鲁棒性

离线模型局限分析

离线模型受限于:

  • 低延迟推理需求 → 受限视觉上下文(64帧)
  • 缺乏显式记忆机制 → 无法保留和检索长期历史证据
  • 导致:许多查询所需视觉信息缺失 → 准确率下降

3.2.3 Frame-level结果(与在线基线对比)

模型Real-TimePast-Time平均相比最佳在线基线
ReKV (LLaVA-OV-7B)46.47%42.95%44.71%-
StreamForest-7B50.67%44.15%47.41%最佳在线基线
TimeChat-Online-7B37.97%44.15%41.06%-
LLaVA-OV-7B + PEARL53.68%48.13%50.94%+3.53%
Qwen2-VL-7B + PEARL53.40%47.48%50.44%+3.03%
Qwen3-VL-8B + PEARL64.18%54.80%59.49%+12.08%

关键发现

  1. 全面超越:所有PEARL变体均超过最佳在线基线StreamForest-7B
  2. Qwen3-VL-8B+PEARL领先:比StreamForest-7B提升17.22%(59.49% vs 42.27%)
  3. 控制对比优势:LLaVA-OV-7B+PEARL vs ReKV(同架构、同插件式框架)
    • Real-Time:+7.21%(53.68% vs 46.47%)
    • Past-Time:+5.18%(48.13% vs 42.95%)
    • 结论:性能提升源于PEARL框架设计,而非基础模型能力差异

PEARL优势来源

flowchart LR
    A[传统在线模型] --> B[固定大小状态<br/>压缩历史]
    A --> C[无概念感知检索]
    
    D[PEARL] --> E[显式概念记忆<br/>概念条目存储]
    D --> F[精准历史检索<br/>查询重写+Top-K]
    
    style E fill:#9f6
    style F fill:#9f6

3.2.4 Video-level结果

模型Real-Time
LLaVA-OV-7B (离线)35.05%
LLaVA-OV-7B + PEARL47.62% (+12.57%)
Qwen2-VL-7B (离线)30.95%
Qwen2-VL-7B + PEARL45.24% (+14.29%)
Qwen3-VL-8B (离线)37.14%
Qwen3-VL-8B + PEARL54.29% (+17.15%)
ReKV30.00%
Gemini3-pro-preview30.48%
Qwen3-VL-8B + PEARL54.29%

关键发现

  1. 更大挑战:所有模型在Video-level上得分显著低于Frame-level

    • 原因:需同时识别个性化概念 推理跨帧连续动作
  2. PEARL显著优势

    • 相比最佳在线基线ReKV:+24.28%(54.29% vs 30.00%)
    • 相比商业模型Gemini:+23.81%(54.29% vs 30.48%)
  3. 设计泛化性:PEARL有效泛化到更具挑战性的Video-level任务

bar title Video-level Real-Time准确率对比
    y-axis 准确率 %
    x-axis ["ReKV", "Gemini3", "LLaVA<br/>离线", "Qwen2<br/>离线", "Qwen3<br/>离线", "LLaVA<br/>+PEARL", "Qwen2<br/>+PEARL", "Qwen3<br/>+PEARL"]
    bar ["30.00", "30.48", "35.05", "30.95", "37.14", "47.62", "45.24", "54.29"]

3.3 消融实验

3.3.1 PEARL组件有效性(渐进式消融)

使用Qwen3-VL-8B在Frame-level上的消融结果:

配置Real-TimePast-Time平均
仅文本26.53%25.00%25.77%
+ 当前片段30.07%26.22%28.15%
+ Concept Memory66.84%27.02%46.93%
+ Streaming Memory66.84%47.99%57.42%
完整PEARL (+ 查询重写)68.21%52.03%60.12%

关键发现

  1. Concept Memory不可或缺

    • 添加后Real-Time准确率跃升 +36.77%(从30.07%到66.84%)
    • 结论:没有概念特定信息,模型无法可靠关联用户定义名称与个性化实体
  2. Streaming Memory对Past-Time QA至关重要

    • 添加后Past-Time准确率跃升 +20.97%(从27.02%到47.99%)
    • 结论:Past-Time QA依赖检索和推理历史片段,而非当前场景
  3. 查询重写进一步优化

    • Real-Time:+1.37%(66.84% → 68.21%)
    • Past-Time:+4.04%(47.99% → 52.03%)
    • 机制:将个性化名称转换为描述性语义,使嵌入模型匹配更有效

3.3.2 效率分析

端到端推理延迟对比

模型Frame-level平均准确率延迟(秒)准确-延迟权衡
LLaVA-OV-7B (基线)42.11%9.38基准
LLaVA-OV-7B + PEARL50.94%10.23+8.83% / +0.85s
Qwen3-VL-8B (基线)44.83%11.57基准
Qwen3-VL-8B + PEARL59.49%14.09+14.66% / +2.52s
ReKV44.71%10.80-
StreamForest-7B47.41%11.04-
TimeChat-Online41.06%17.28-

关键发现

  1. PEARL延迟开销轻微

    • LLaVA-OV-7B+PEARL仅增加0.85秒(9.0%)
    • 但准确率提升8.83%,性价比极高
  2. LLaVA-OV-7B+PEARL最佳效率

    • 准确率超过所有在线基线
    • 延迟低于所有在线基线(10.23s vs 10.80s+)
  3. 延迟组成分析

pie title PEARL延迟组成 (Qwen3-VL-8B)
    "LLM推理" : 75
    "Concept检索" : 5
    "查询重写" : 10
    "Streaming检索" : 10
  • LLM推理:主要瓶颈(约75%延迟)
  • PEARL核心模块(检索+重写):延迟极低且跨模型恒定
  • 结论:PEARL可无缝适配多样化模型架构,同时保持实时检索能力

3.3.3 超参数敏感性分析

Top-K检索数量影响

K值Frame-level平均准确率
K=156.12%
K=460.12% (最优)
K=858.73%

分析

  • K过小:信息不足,漏检关键证据
  • K过大:引入噪声,干扰推理
  • K=4为最佳平衡点

上下文扩展N的影响

N值Frame-levelVideo-level
N=058.45%52.38%
N=160.12%-
N=259.28%-

分析

  • Frame-level:N=1最优,提供足够时序上下文而不引入过多噪声
  • Video-level:N=0(不扩展),避免动作混淆

3.4 关键发现总结

mindmap
  root((核心发现))
    基准特性
      132视频 2173标注
      平均24分钟时长
      Frame+Video双级别
      三类查询类型
    性能提升
      Frame-level +13.79%
      Video-level +12.80%
      超越Gemini 4.52%
      超越StreamForest 17.22%
    消融洞察
      Concept Memory +36.77%
      Streaming Memory +20.97%
      查询重写 +4.04%
    效率优势
      LLaVA-OV+PEARL最快
      核心模块延迟恒定
      LLM推理是瓶颈

3.4.1 统计显著性

所有提升均具有统计显著性(基于8个基线模型、132个视频、2,173个标注的大规模评估):

  • PEARL在所有配置下均优于基线
  • 提升幅度从8.55%到23.47%不等
  • 跨3种不同架构保持一致提升,证明鲁棒性

3.4.2 与人类表现的差距

指标最佳模型人类表现差距
Frame-level平均59.49%86.73%-27.24%
Video-level Real-Time54.29%85.71%-31.42%

启示:尽管PEARL达到SOTA,但与人类表现仍有显著差距,表明该任务仍有巨大改进空间。