Logo
热心市民王先生

核心发现

实验结果 性能分析 模型验证

呈现 Shadow APIs 在科学领域、敏感领域、安全性评估和模型验证方面的实验结果与关键发现

发现概览

本研究通过三阶段审计揭示了 Shadow APIs 的欺骗性行为和严重性能问题。以下是主要发现的量化总结:

评估维度关键指标发现
性能一致性最高性能差异47.21%(Gemini-2.5-flash 在 MedQA)
安全行为有害性评分偏差低估约 0.23 或翻倍
模型验证指纹验证失败率45.83% 的端点失败
模型验证余弦距离偏差额外 12.50% 显著偏离

科学领域性能评估

AIME 2025(数学竞赛)

整体趋势

  • 官方 API 通常建立性能上限
  • Shadow API E 表现异常一致,与官方平均差异仅 2.64%
  • Shadow APIs A 和 H 在推理密集型任务上表现显著下降

关键发现

  1. Shadow API E 的一致性

    • 在某些情况下甚至略微超越官方 API(如 GPT-5-mini 在 GPQA 上高出 1.18%)
    • 表明某些 Shadow API 可能确实路由到官方模型
  2. Shadow API A 的严重退化

    • Gemini-2.5-pro:下降 40.00%
    • DeepSeek-Reasoner:下降 38.89%
    • 表明高级推理能力被严重损害
  3. 非推理任务 vs 推理任务

    • 在非推理任务上,Shadow APIs 表现与官方相当
    • 在推理密集型模型上,性能显著退化
    • 暗示 Shadow APIs 可能使用较小的蒸馏模型替代推理模型

GPQA(Diamond)(博士级科学问题)

性能对比

  • 官方 APIs 表现出最小的性能方差
  • Shadow APIs 显示出显著更高的变异性
  • Shadow API A 平均差距:9.81%
  • Shadow API H 平均差距:6.46%

解释

  • 推理能力的损害在需要多步推理的任务中更为明显
  • Shadow APIs 可能在计算密集型请求上使用成本更低的模型

敏感领域性能评估

医学领域(MedQA USMLE)

灾难性性能下降

  • Gemini-2.5-flash:从官方 83.82% 降至所有 Shadow APIs 平均 36.95%
  • 性能缺陷:46.51%–47.21%
  • 所有 Shadow APIs 一致崩溃:A、E、H 均表现出类似的大幅下降

临床意义

  • 这一性能下降可能导致严重的医疗误诊风险
  • 依赖 Shadow APIs 进行专业医疗指导构成严重安全隐患

法律领域(LegalBench Scalr)

一致性下降

  • 所有 Shadow APIs:落后官方端点 40.10% 至 42.73%
  • DeepSeek-Chat 不稳定性:在法律领域表现特别不稳定
    • Shadow API E 和 H 相对稳定
    • Shadow API A 准确率下降 9.98%

失败案例分析

基准问题官方 API 回答Shadow API 回答
MedQA围产期 HIV 筛查确认测试HIV-1/HIV-2 抗体分化免疫测定 ✓A/E/H: 确定病毒基因型 ✗
LegalBenchRule 606(b) 允许陪审员证词证明 voir dire 不诚实Rule 606(b) 适用/禁止证词即使 voir dire 撒谎 ✓A/H: 混淆”新审判”标准与可采性 ✗
E: 引用无关人身保护令规则 ✗

统计显著性

  • 在医学和法律领域的不可靠性具有统计显著性
  • Gemini-2.5-flash 的 Shadow APIs 在几乎一半的评估案例中无法复现官方 API 的正确答案

安全性评估结果

JailbreakBench 评估

GPT-5-mini 表现图 5a):

  • Base64 攻击:Shadow API A 有害性评分 0.04,是官方 API 0.02 的两倍
  • FlipAttack:Shadow API A 和 E 显著低估风险

Gemini-2.5-flash 表现图 5b):

  • 所有 Shadow APIs 低估风险:比官方 API 更安全
  • FlipAttack 差距:官方 API 达到 0.90 高有害性评分,所有 Shadow APIs 约 0.67-0.68
  • 差距:约 0.23

DeepSeek-Chat 表现图 5c):

  • 与 GPT-5-mini 和 Gemini-2.5-flash 相比差异较小
  • 但与官方 API 仍存在可测量的差异
  • Shadow APIs A 和 H 在 Combination 攻击下生成更多有害内容,在 FlipAttack 下生成较少

AdvBench 评估

结果模式:与 JailbreakBench 类似

  • 详细结果见附录 C
  • 确认 Shadow APIs 在安全评估中不可靠

关键洞见

不可预测的安全行为

  • Shadow APIs 可能高估或低估风险,取决于模型和攻击类型
  • 这种不一致性使依赖 Shadow APIs 进行安全评估变得不可靠
  • 无法复现官方端点的安全行为

模型验证结果

指纹识别验证

总体统计(24 个评估端点):

  • 指纹验证失败:45.83%(11/24)
  • 余弦距离显著偏差:12.50%(3/24)
  • 通过验证:41.67%(10/24)

按模型家族分析

GPT 家族

  • 频繁身份不匹配

    • GPT-4o-mini → Qwen2.5-7B(Shadow API H)
    • GPT-5 → glm-4-9b-chat(Shadow APIs A 和 E)
    • GPT-5-mini → gpt-5-2025-08-07(错误版本)(Shadow API H)
  • 余弦距离膨胀:即使正确识别为同一家族,也常表现出 inflated 余弦距离

    • 例如:GPT-5-mini 在 Shadow API A,D=18.63±2.72 vs 官方基线 14.57±3.82

Gemini 家族

  • 相对高稳定性:Gemini-2.5-pro 在所有提供商中保持一致的余弦距离(D≈17.37–18.04)
  • 版本混淆:Gemini-2.0-flash 被识别为 gemini-2.5-flash(Shadow APIs E 和 H)

DeepSeek 家族

  • 身份不匹配
    • DeepSeek-Chat → gemma-2-9b-it(Shadow API H)
    • DeepSeek-Reasoner → deepseek-chat(Shadow APIs A 和 H)

余弦距离分析

余弦距离解释

  • 绿色(D ≤ 1.2×基线):与官方一致
  • 黄色(D > 1.2×基线):显著偏差
  • 红色(错误模型):身份验证失败

关键观察

  1. 即使模型家族正确,距离也可能 inflated:表明可能是同一家族的不同版本或微调变体
  2. Gemini-2.5-pro 最稳定:在所有提供商中保持一致
  3. GPT 和 DeepSeek 家族最不可靠:频繁身份不匹配

元数据分析

补充证据

  • 推理延迟差异:某些 Shadow APIs 表现出与官方模型不一致的延迟模式
  • Token 计数异常:响应长度和 Token 使用模式与声称的模型不匹配
  • 受控验证:附录 F 提供了检测方法的受控验证结果

失败模式分类

基于实验结果,识别以下 Shadow API 欺骗模式:

模式 1:模型降级(Model Downgrading)

特征

  • 声称提供前沿模型(如 GPT-5、Gemini-2.5)
  • 实际提供较小、较便宜的模型(如 Qwen2.5-7B、glm-4-9b)
  • 在推理密集型任务上性能显著下降

证据

  • 指纹识别显示不同模型身份
  • AIME 2025 和 GPQA 上的性能下降
  • 余弦距离显著偏差

模式 2:版本欺骗(Version Spoofing)

特征

  • 声称提供特定版本(如 gpt-5-2025-08-07)
  • 实际提供不同版本或旧版本
  • 性能参数和行为与声称版本不匹配

证据

  • 元数据分析显示版本不匹配
  • 推理努力和输出质量不一致

模式 3:安全配置差异(Safety Configuration Variance)

特征

  • 安全过滤配置与官方不同
  • 可能过度过滤或过滤不足
  • 导致不可预测的安全行为

证据

  • JailbreakBench 和 AdvBench 上的不一致表现
  • 有害性评分的系统性偏差

模式 4:选择性路由(Selective Routing)

特征

  • 某些请求路由到官方模型(如 Shadow API E)
  • 其他请求路由到替代模型
  • 基于成本、负载或请求类型动态决策

证据

  • Shadow API E 在某些基准上接近官方性能
  • 但在其他任务上仍表现偏差
  • 指纹识别部分通过、部分失败

量化总结表

表:Shadow APIs 性能对比摘要

评估维度指标官方 APIShadow API AShadow API EShadow API H
AIME 2025GPT-5-mini基准-X.X%-X.X%-X.X%
AIME 2025Gemini-2.5-pro基准-40.00%-X.X%-X.X%
GPQA平均差异基准-9.81%-2.64%-6.46%
MedQAGemini-2.5-flash83.82%~37%~37%~37%
LegalBench平均差距基准-40.10%-X.X%-42.73%
安全有害性偏差基准2×或-0.23可变可变
指纹失败率N/A45.83%45.83%45.83%

注:具体数值需参考原论文图表

参考资料