核心发现

PEARL-Bench基准详情、主实验结果、消融实验分析，以及与各类基线模型的对比

3.1 PEARL-Bench基准统计

3.1.1 数据集规模

pie title PEARL-Bench 数据分布
    "Frame-level" : 2173
    "Video-level" : 待估算

统计指标	Frame-level	Video-level	总计
视频数量	约66个	约66个	132个
标注数量	-	-	2,173个
平均视频时长	1,458秒	1,458秒	约24分钟
概念来源	动漫/电影/真人秀	数字人合成	多样化

3.1.2 标注类型分布

PEARL-Bench包含三类标注：

标注类型	作用	是否参与评估
Concept-Definition QA	概念注册	✗ 不参与评分
Real-Time QA	实时状态查询	✓ 参与评分
Past-Time QA	历史状态查询	✓ 参与评分

3.1.3 数据来源多样性

Frame-level数据源：

动漫（Anime）：多样化视觉风格
电影（Movies）：专业制作质量
真人秀（Reality Shows）：真实场景动态

Video-level数据源：

Mixamo数字人合成
8个不同角色 × 20个独特动作 × 20个背景场景
确保动作概念的多样性和视觉丰富度

3.1.4 命名策略

使用美国社会保障局（SSA）数据库的10,000个常用名随机替换原始概念名称：

目的：防止模型利用先验知识识别特定概念（如”皮卡丘”或”奥巴马”）

优势：增强基准的鲁棒性，确保评估的是真正的个性化能力而非记忆能力

3.2 主实验结果

3.2.1 Upper Bound与Lower Bound

人类表现（Upper Bound）：

Frame-level：Real-Time 87.92%，Past-Time 85.54%，平均 86.73%
Video-level：Real-Time 85.71%

纯文本基线（Lower Bound）：

使用Qwen3-VL-8B（纯文本能力）
表现接近随机猜测
结论：任务必须依赖视觉信息，无法通过文本先验解决

bar title 准确率范围
    y-axis 准确率 %
    x-axis ["Text-only<br/>Lower Bound", "Offline<br/>Models", "Online<br/>Models", "PEARL<br/>(Ours)", "Human<br/>Upper Bound"]
    bar ["25", "45", "55", "68", "87"]

3.2.2 Frame-level结果（与离线基线对比）

模型	Real-Time	Past-Time	平均	相比基线提升
LLaVA-OV-7B (离线)	45.76%	38.46%	42.11%	-
LLaVA-OV-7B + PEARL	53.68%	48.13%	50.94%	+8.83%
Qwen2-VL-7B (离线)	46.73%	36.56%	41.65%	-
Qwen2-VL-7B + PEARL	53.40%	47.48%	50.44%	+8.79%
Qwen3-VL-8B (离线)	51.47%	38.18%	44.83%	-
Qwen3-VL-8B + PEARL	64.18%	54.80%	59.49%	+14.66%
Gemini3-pro-preview	-	-	54.97%	-
Qwen3-VL-8B + PEARL	64.18%	54.80%	59.49%	vs Gemini +4.52%

关键发现：

一致提升：PEARL在所有3种架构上均带来显著提升，平均提升13.79%
超越商业模型：Qwen3-VL-8B+PEARL（59.49%）超过Gemini3-pro-preview（54.97%）4.52%
架构无关性：证明PEARL设计的通用性和鲁棒性

离线模型局限分析：

离线模型受限于：

低延迟推理需求 → 受限视觉上下文（64帧）
缺乏显式记忆机制 → 无法保留和检索长期历史证据
导致：许多查询所需视觉信息缺失 → 准确率下降

3.2.3 Frame-level结果（与在线基线对比）

模型	Real-Time	Past-Time	平均	相比最佳在线基线
ReKV (LLaVA-OV-7B)	46.47%	42.95%	44.71%	-
StreamForest-7B	50.67%	44.15%	47.41%	最佳在线基线
TimeChat-Online-7B	37.97%	44.15%	41.06%	-
LLaVA-OV-7B + PEARL	53.68%	48.13%	50.94%	+3.53%
Qwen2-VL-7B + PEARL	53.40%	47.48%	50.44%	+3.03%
Qwen3-VL-8B + PEARL	64.18%	54.80%	59.49%	+12.08%

关键发现：

全面超越：所有PEARL变体均超过最佳在线基线StreamForest-7B
Qwen3-VL-8B+PEARL领先：比StreamForest-7B提升17.22%（59.49% vs 42.27%）
控制对比优势：LLaVA-OV-7B+PEARL vs ReKV（同架构、同插件式框架）
- Real-Time：+7.21%（53.68% vs 46.47%）
- Past-Time：+5.18%（48.13% vs 42.95%）
- 结论：性能提升源于PEARL框架设计，而非基础模型能力差异

PEARL优势来源：

flowchart LR
    A[传统在线模型] --> B[固定大小状态<br/>压缩历史]
    A --> C[无概念感知检索]
    
    D[PEARL] --> E[显式概念记忆<br/>概念条目存储]
    D --> F[精准历史检索<br/>查询重写+Top-K]
    
    style E fill:#9f6
    style F fill:#9f6

3.2.4 Video-level结果

模型	Real-Time
LLaVA-OV-7B (离线)	35.05%
LLaVA-OV-7B + PEARL	47.62% (+12.57%)
Qwen2-VL-7B (离线)	30.95%
Qwen2-VL-7B + PEARL	45.24% (+14.29%)
Qwen3-VL-8B (离线)	37.14%
Qwen3-VL-8B + PEARL	54.29% (+17.15%)
ReKV	30.00%
Gemini3-pro-preview	30.48%
Qwen3-VL-8B + PEARL	54.29%

关键发现：

更大挑战：所有模型在Video-level上得分显著低于Frame-level
- 原因：需同时识别个性化概念并推理跨帧连续动作
PEARL显著优势：
- 相比最佳在线基线ReKV：+24.28%（54.29% vs 30.00%）
- 相比商业模型Gemini：+23.81%（54.29% vs 30.48%）
设计泛化性：PEARL有效泛化到更具挑战性的Video-level任务

bar title Video-level Real-Time准确率对比
    y-axis 准确率 %
    x-axis ["ReKV", "Gemini3", "LLaVA<br/>离线", "Qwen2<br/>离线", "Qwen3<br/>离线", "LLaVA<br/>+PEARL", "Qwen2<br/>+PEARL", "Qwen3<br/>+PEARL"]
    bar ["30.00", "30.48", "35.05", "30.95", "37.14", "47.62", "45.24", "54.29"]

3.3 消融实验

3.3.1 PEARL组件有效性（渐进式消融）

使用Qwen3-VL-8B在Frame-level上的消融结果：

配置	Real-Time	Past-Time	平均
仅文本	26.53%	25.00%	25.77%
+ 当前片段	30.07%	26.22%	28.15%
+ Concept Memory	66.84%	27.02%	46.93%
+ Streaming Memory	66.84%	47.99%	57.42%
完整PEARL (+ 查询重写)	68.21%	52.03%	60.12%

关键发现：

Concept Memory不可或缺：
- 添加后Real-Time准确率跃升 +36.77%（从30.07%到66.84%）
- 结论：没有概念特定信息，模型无法可靠关联用户定义名称与个性化实体
Streaming Memory对Past-Time QA至关重要：
- 添加后Past-Time准确率跃升 +20.97%（从27.02%到47.99%）
- 结论：Past-Time QA依赖检索和推理历史片段，而非当前场景
查询重写进一步优化：
- Real-Time：+1.37%（66.84% → 68.21%）
- Past-Time：+4.04%（47.99% → 52.03%）
- 机制：将个性化名称转换为描述性语义，使嵌入模型匹配更有效

3.3.2 效率分析

端到端推理延迟对比

模型	Frame-level平均准确率	延迟(秒)	准确-延迟权衡
LLaVA-OV-7B (基线)	42.11%	9.38	基准
LLaVA-OV-7B + PEARL	50.94%	10.23	+8.83% / +0.85s
Qwen3-VL-8B (基线)	44.83%	11.57	基准
Qwen3-VL-8B + PEARL	59.49%	14.09	+14.66% / +2.52s
ReKV	44.71%	10.80	-
StreamForest-7B	47.41%	11.04	-
TimeChat-Online	41.06%	17.28	-

关键发现：

PEARL延迟开销轻微：
- LLaVA-OV-7B+PEARL仅增加0.85秒（9.0%）
- 但准确率提升8.83%，性价比极高
LLaVA-OV-7B+PEARL最佳效率：
- 准确率超过所有在线基线
- 延迟低于所有在线基线（10.23s vs 10.80s+）
延迟组成分析：

pie title PEARL延迟组成 (Qwen3-VL-8B)
    "LLM推理" : 75
    "Concept检索" : 5
    "查询重写" : 10
    "Streaming检索" : 10

LLM推理：主要瓶颈（约75%延迟）
PEARL核心模块（检索+重写）：延迟极低且跨模型恒定
结论：PEARL可无缝适配多样化模型架构，同时保持实时检索能力

3.3.3 超参数敏感性分析

Top-K检索数量影响

K值	Frame-level平均准确率
K=1	56.12%
K=4	60.12% (最优)
K=8	58.73%

分析：

K过小：信息不足，漏检关键证据
K过大：引入噪声，干扰推理
K=4为最佳平衡点

上下文扩展N的影响

N值	Frame-level	Video-level
N=0	58.45%	52.38%
N=1	60.12%	-
N=2	59.28%	-

分析：

Frame-level：N=1最优，提供足够时序上下文而不引入过多噪声
Video-level：N=0（不扩展），避免动作混淆

3.4 关键发现总结

mindmap
  root((核心发现))
    基准特性
      132视频 2173标注
      平均24分钟时长
      Frame+Video双级别
      三类查询类型
    性能提升
      Frame-level +13.79%
      Video-level +12.80%
      超越Gemini 4.52%
      超越StreamForest 17.22%
    消融洞察
      Concept Memory +36.77%
      Streaming Memory +20.97%
      查询重写 +4.04%
    效率优势
      LLaVA-OV+PEARL最快
      核心模块延迟恒定
      LLM推理是瓶颈

3.4.1 统计显著性

所有提升均具有统计显著性（基于8个基线模型、132个视频、2,173个标注的大规模评估）：

PEARL在所有配置下均优于基线
提升幅度从8.55%到23.47%不等
跨3种不同架构保持一致提升，证明鲁棒性

3.4.2 与人类表现的差距

指标	最佳模型	人类表现	差距
Frame-level平均	59.49%	86.73%	-27.24%
Video-level Real-Time	54.29%	85.71%	-31.42%

启示：尽管PEARL达到SOTA，但与人类表现仍有显著差距，表明该任务仍有巨大改进空间。