核心发现
PEARL-Bench基准详情、主实验结果、消融实验分析,以及与各类基线模型的对比
3.1 PEARL-Bench基准统计
3.1.1 数据集规模
pie title PEARL-Bench 数据分布
"Frame-level" : 2173
"Video-level" : 待估算
| 统计指标 | Frame-level | Video-level | 总计 |
|---|---|---|---|
| 视频数量 | 约66个 | 约66个 | 132个 |
| 标注数量 | - | - | 2,173个 |
| 平均视频时长 | 1,458秒 | 1,458秒 | 约24分钟 |
| 概念来源 | 动漫/电影/真人秀 | 数字人合成 | 多样化 |
3.1.2 标注类型分布
PEARL-Bench包含三类标注:
| 标注类型 | 作用 | 是否参与评估 |
|---|---|---|
| Concept-Definition QA | 概念注册 | ✗ 不参与评分 |
| Real-Time QA | 实时状态查询 | ✓ 参与评分 |
| Past-Time QA | 历史状态查询 | ✓ 参与评分 |
3.1.3 数据来源多样性
Frame-level数据源:
- 动漫(Anime):多样化视觉风格
- 电影(Movies):专业制作质量
- 真人秀(Reality Shows):真实场景动态
Video-level数据源:
- Mixamo数字人合成
- 8个不同角色 × 20个独特动作 × 20个背景场景
- 确保动作概念的多样性和视觉丰富度
3.1.4 命名策略
使用美国社会保障局(SSA)数据库的10,000个常用名随机替换原始概念名称:
目的:防止模型利用先验知识识别特定概念(如”皮卡丘”或”奥巴马”)
优势:增强基准的鲁棒性,确保评估的是真正的个性化能力而非记忆能力
3.2 主实验结果
3.2.1 Upper Bound与Lower Bound
人类表现(Upper Bound):
- Frame-level:Real-Time 87.92%,Past-Time 85.54%,平均 86.73%
- Video-level:Real-Time 85.71%
纯文本基线(Lower Bound):
- 使用Qwen3-VL-8B(纯文本能力)
- 表现接近随机猜测
- 结论:任务必须依赖视觉信息,无法通过文本先验解决
bar title 准确率范围
y-axis 准确率 %
x-axis ["Text-only<br/>Lower Bound", "Offline<br/>Models", "Online<br/>Models", "PEARL<br/>(Ours)", "Human<br/>Upper Bound"]
bar ["25", "45", "55", "68", "87"]
3.2.2 Frame-level结果(与离线基线对比)
| 模型 | Real-Time | Past-Time | 平均 | 相比基线提升 |
|---|---|---|---|---|
| LLaVA-OV-7B (离线) | 45.76% | 38.46% | 42.11% | - |
| LLaVA-OV-7B + PEARL | 53.68% | 48.13% | 50.94% | +8.83% |
| Qwen2-VL-7B (离线) | 46.73% | 36.56% | 41.65% | - |
| Qwen2-VL-7B + PEARL | 53.40% | 47.48% | 50.44% | +8.79% |
| Qwen3-VL-8B (离线) | 51.47% | 38.18% | 44.83% | - |
| Qwen3-VL-8B + PEARL | 64.18% | 54.80% | 59.49% | +14.66% |
| Gemini3-pro-preview | - | - | 54.97% | - |
| Qwen3-VL-8B + PEARL | 64.18% | 54.80% | 59.49% | vs Gemini +4.52% |
关键发现:
- 一致提升:PEARL在所有3种架构上均带来显著提升,平均提升13.79%
- 超越商业模型:Qwen3-VL-8B+PEARL(59.49%)超过Gemini3-pro-preview(54.97%)4.52%
- 架构无关性:证明PEARL设计的通用性和鲁棒性
离线模型局限分析:
离线模型受限于:
- 低延迟推理需求 → 受限视觉上下文(64帧)
- 缺乏显式记忆机制 → 无法保留和检索长期历史证据
- 导致:许多查询所需视觉信息缺失 → 准确率下降
3.2.3 Frame-level结果(与在线基线对比)
| 模型 | Real-Time | Past-Time | 平均 | 相比最佳在线基线 |
|---|---|---|---|---|
| ReKV (LLaVA-OV-7B) | 46.47% | 42.95% | 44.71% | - |
| StreamForest-7B | 50.67% | 44.15% | 47.41% | 最佳在线基线 |
| TimeChat-Online-7B | 37.97% | 44.15% | 41.06% | - |
| LLaVA-OV-7B + PEARL | 53.68% | 48.13% | 50.94% | +3.53% |
| Qwen2-VL-7B + PEARL | 53.40% | 47.48% | 50.44% | +3.03% |
| Qwen3-VL-8B + PEARL | 64.18% | 54.80% | 59.49% | +12.08% |
关键发现:
- 全面超越:所有PEARL变体均超过最佳在线基线StreamForest-7B
- Qwen3-VL-8B+PEARL领先:比StreamForest-7B提升17.22%(59.49% vs 42.27%)
- 控制对比优势:LLaVA-OV-7B+PEARL vs ReKV(同架构、同插件式框架)
- Real-Time:+7.21%(53.68% vs 46.47%)
- Past-Time:+5.18%(48.13% vs 42.95%)
- 结论:性能提升源于PEARL框架设计,而非基础模型能力差异
PEARL优势来源:
flowchart LR
A[传统在线模型] --> B[固定大小状态<br/>压缩历史]
A --> C[无概念感知检索]
D[PEARL] --> E[显式概念记忆<br/>概念条目存储]
D --> F[精准历史检索<br/>查询重写+Top-K]
style E fill:#9f6
style F fill:#9f6
3.2.4 Video-level结果
| 模型 | Real-Time |
|---|---|
| LLaVA-OV-7B (离线) | 35.05% |
| LLaVA-OV-7B + PEARL | 47.62% (+12.57%) |
| Qwen2-VL-7B (离线) | 30.95% |
| Qwen2-VL-7B + PEARL | 45.24% (+14.29%) |
| Qwen3-VL-8B (离线) | 37.14% |
| Qwen3-VL-8B + PEARL | 54.29% (+17.15%) |
| ReKV | 30.00% |
| Gemini3-pro-preview | 30.48% |
| Qwen3-VL-8B + PEARL | 54.29% |
关键发现:
-
更大挑战:所有模型在Video-level上得分显著低于Frame-level
- 原因:需同时识别个性化概念 并 推理跨帧连续动作
-
PEARL显著优势:
- 相比最佳在线基线ReKV:+24.28%(54.29% vs 30.00%)
- 相比商业模型Gemini:+23.81%(54.29% vs 30.48%)
-
设计泛化性:PEARL有效泛化到更具挑战性的Video-level任务
bar title Video-level Real-Time准确率对比
y-axis 准确率 %
x-axis ["ReKV", "Gemini3", "LLaVA<br/>离线", "Qwen2<br/>离线", "Qwen3<br/>离线", "LLaVA<br/>+PEARL", "Qwen2<br/>+PEARL", "Qwen3<br/>+PEARL"]
bar ["30.00", "30.48", "35.05", "30.95", "37.14", "47.62", "45.24", "54.29"]
3.3 消融实验
3.3.1 PEARL组件有效性(渐进式消融)
使用Qwen3-VL-8B在Frame-level上的消融结果:
| 配置 | Real-Time | Past-Time | 平均 |
|---|---|---|---|
| 仅文本 | 26.53% | 25.00% | 25.77% |
| + 当前片段 | 30.07% | 26.22% | 28.15% |
| + Concept Memory | 66.84% | 27.02% | 46.93% |
| + Streaming Memory | 66.84% | 47.99% | 57.42% |
| 完整PEARL (+ 查询重写) | 68.21% | 52.03% | 60.12% |
关键发现:
-
Concept Memory不可或缺:
- 添加后Real-Time准确率跃升 +36.77%(从30.07%到66.84%)
- 结论:没有概念特定信息,模型无法可靠关联用户定义名称与个性化实体
-
Streaming Memory对Past-Time QA至关重要:
- 添加后Past-Time准确率跃升 +20.97%(从27.02%到47.99%)
- 结论:Past-Time QA依赖检索和推理历史片段,而非当前场景
-
查询重写进一步优化:
- Real-Time:+1.37%(66.84% → 68.21%)
- Past-Time:+4.04%(47.99% → 52.03%)
- 机制:将个性化名称转换为描述性语义,使嵌入模型匹配更有效
3.3.2 效率分析
端到端推理延迟对比
| 模型 | Frame-level平均准确率 | 延迟(秒) | 准确-延迟权衡 |
|---|---|---|---|
| LLaVA-OV-7B (基线) | 42.11% | 9.38 | 基准 |
| LLaVA-OV-7B + PEARL | 50.94% | 10.23 | +8.83% / +0.85s |
| Qwen3-VL-8B (基线) | 44.83% | 11.57 | 基准 |
| Qwen3-VL-8B + PEARL | 59.49% | 14.09 | +14.66% / +2.52s |
| ReKV | 44.71% | 10.80 | - |
| StreamForest-7B | 47.41% | 11.04 | - |
| TimeChat-Online | 41.06% | 17.28 | - |
关键发现:
-
PEARL延迟开销轻微:
- LLaVA-OV-7B+PEARL仅增加0.85秒(9.0%)
- 但准确率提升8.83%,性价比极高
-
LLaVA-OV-7B+PEARL最佳效率:
- 准确率超过所有在线基线
- 延迟低于所有在线基线(10.23s vs 10.80s+)
-
延迟组成分析:
pie title PEARL延迟组成 (Qwen3-VL-8B)
"LLM推理" : 75
"Concept检索" : 5
"查询重写" : 10
"Streaming检索" : 10
- LLM推理:主要瓶颈(约75%延迟)
- PEARL核心模块(检索+重写):延迟极低且跨模型恒定
- 结论:PEARL可无缝适配多样化模型架构,同时保持实时检索能力
3.3.3 超参数敏感性分析
Top-K检索数量影响
| K值 | Frame-level平均准确率 |
|---|---|
| K=1 | 56.12% |
| K=4 | 60.12% (最优) |
| K=8 | 58.73% |
分析:
- K过小:信息不足,漏检关键证据
- K过大:引入噪声,干扰推理
- K=4为最佳平衡点
上下文扩展N的影响
| N值 | Frame-level | Video-level |
|---|---|---|
| N=0 | 58.45% | 52.38% |
| N=1 | 60.12% | - |
| N=2 | 59.28% | - |
分析:
- Frame-level:N=1最优,提供足够时序上下文而不引入过多噪声
- Video-level:N=0(不扩展),避免动作混淆
3.4 关键发现总结
mindmap
root((核心发现))
基准特性
132视频 2173标注
平均24分钟时长
Frame+Video双级别
三类查询类型
性能提升
Frame-level +13.79%
Video-level +12.80%
超越Gemini 4.52%
超越StreamForest 17.22%
消融洞察
Concept Memory +36.77%
Streaming Memory +20.97%
查询重写 +4.04%
效率优势
LLaVA-OV+PEARL最快
核心模块延迟恒定
LLM推理是瓶颈
3.4.1 统计显著性
所有提升均具有统计显著性(基于8个基线模型、132个视频、2,173个标注的大规模评估):
- PEARL在所有配置下均优于基线
- 提升幅度从8.55%到23.47%不等
- 跨3种不同架构保持一致提升,证明鲁棒性
3.4.2 与人类表现的差距
| 指标 | 最佳模型 | 人类表现 | 差距 |
|---|---|---|---|
| Frame-level平均 | 59.49% | 86.73% | -27.24% |
| Video-level Real-Time | 54.29% | 85.71% | -31.42% |
启示:尽管PEARL达到SOTA,但与人类表现仍有显著差距,表明该任务仍有巨大改进空间。