核心发现
实验结果 性能分析 模型验证
呈现 Shadow APIs 在科学领域、敏感领域、安全性评估和模型验证方面的实验结果与关键发现
发现概览
本研究通过三阶段审计揭示了 Shadow APIs 的欺骗性行为和严重性能问题。以下是主要发现的量化总结:
| 评估维度 | 关键指标 | 发现 |
|---|---|---|
| 性能一致性 | 最高性能差异 | 47.21%(Gemini-2.5-flash 在 MedQA) |
| 安全行为 | 有害性评分偏差 | 低估约 0.23 或翻倍 |
| 模型验证 | 指纹验证失败率 | 45.83% 的端点失败 |
| 模型验证 | 余弦距离偏差 | 额外 12.50% 显著偏离 |
科学领域性能评估
AIME 2025(数学竞赛)
整体趋势:
- 官方 API 通常建立性能上限
- Shadow API E 表现异常一致,与官方平均差异仅 2.64%
- Shadow APIs A 和 H 在推理密集型任务上表现显著下降
关键发现:
-
Shadow API E 的一致性:
- 在某些情况下甚至略微超越官方 API(如 GPT-5-mini 在 GPQA 上高出 1.18%)
- 表明某些 Shadow API 可能确实路由到官方模型
-
Shadow API A 的严重退化:
- Gemini-2.5-pro:下降 40.00%
- DeepSeek-Reasoner:下降 38.89%
- 表明高级推理能力被严重损害
-
非推理任务 vs 推理任务:
- 在非推理任务上,Shadow APIs 表现与官方相当
- 在推理密集型模型上,性能显著退化
- 暗示 Shadow APIs 可能使用较小的蒸馏模型替代推理模型
GPQA(Diamond)(博士级科学问题)
性能对比:
- 官方 APIs 表现出最小的性能方差
- Shadow APIs 显示出显著更高的变异性
- Shadow API A 平均差距:9.81%
- Shadow API H 平均差距:6.46%
解释:
- 推理能力的损害在需要多步推理的任务中更为明显
- Shadow APIs 可能在计算密集型请求上使用成本更低的模型
敏感领域性能评估
医学领域(MedQA USMLE)
灾难性性能下降:
- Gemini-2.5-flash:从官方 83.82% 降至所有 Shadow APIs 平均 36.95%
- 性能缺陷:46.51%–47.21%
- 所有 Shadow APIs 一致崩溃:A、E、H 均表现出类似的大幅下降
临床意义:
- 这一性能下降可能导致严重的医疗误诊风险
- 依赖 Shadow APIs 进行专业医疗指导构成严重安全隐患
法律领域(LegalBench Scalr)
一致性下降:
- 所有 Shadow APIs:落后官方端点 40.10% 至 42.73%
- DeepSeek-Chat 不稳定性:在法律领域表现特别不稳定
- Shadow API E 和 H 相对稳定
- Shadow API A 准确率下降 9.98%
失败案例分析:
| 基准 | 问题 | 官方 API 回答 | Shadow API 回答 |
|---|---|---|---|
| MedQA | 围产期 HIV 筛查确认测试 | HIV-1/HIV-2 抗体分化免疫测定 ✓ | A/E/H: 确定病毒基因型 ✗ |
| LegalBench | Rule 606(b) 允许陪审员证词证明 voir dire 不诚实 | Rule 606(b) 适用/禁止证词即使 voir dire 撒谎 ✓ | A/H: 混淆”新审判”标准与可采性 ✗ E: 引用无关人身保护令规则 ✗ |
统计显著性:
- 在医学和法律领域的不可靠性具有统计显著性
- Gemini-2.5-flash 的 Shadow APIs 在几乎一半的评估案例中无法复现官方 API 的正确答案
安全性评估结果
JailbreakBench 评估
GPT-5-mini 表现(图 5a):
- Base64 攻击:Shadow API A 有害性评分 0.04,是官方 API 0.02 的两倍
- FlipAttack:Shadow API A 和 E 显著低估风险
Gemini-2.5-flash 表现(图 5b):
- 所有 Shadow APIs 低估风险:比官方 API 更安全
- FlipAttack 差距:官方 API 达到 0.90 高有害性评分,所有 Shadow APIs 约 0.67-0.68
- 差距:约 0.23
DeepSeek-Chat 表现(图 5c):
- 与 GPT-5-mini 和 Gemini-2.5-flash 相比差异较小
- 但与官方 API 仍存在可测量的差异
- Shadow APIs A 和 H 在 Combination 攻击下生成更多有害内容,在 FlipAttack 下生成较少
AdvBench 评估
结果模式:与 JailbreakBench 类似
- 详细结果见附录 C
- 确认 Shadow APIs 在安全评估中不可靠
关键洞见
不可预测的安全行为:
- Shadow APIs 可能高估或低估风险,取决于模型和攻击类型
- 这种不一致性使依赖 Shadow APIs 进行安全评估变得不可靠
- 无法复现官方端点的安全行为
模型验证结果
指纹识别验证
总体统计(24 个评估端点):
- 指纹验证失败:45.83%(11/24)
- 余弦距离显著偏差:12.50%(3/24)
- 通过验证:41.67%(10/24)
按模型家族分析
GPT 家族:
-
频繁身份不匹配:
- GPT-4o-mini → Qwen2.5-7B(Shadow API H)
- GPT-5 → glm-4-9b-chat(Shadow APIs A 和 E)
- GPT-5-mini → gpt-5-2025-08-07(错误版本)(Shadow API H)
-
余弦距离膨胀:即使正确识别为同一家族,也常表现出 inflated 余弦距离
- 例如:GPT-5-mini 在 Shadow API A,D=18.63±2.72 vs 官方基线 14.57±3.82
Gemini 家族:
- 相对高稳定性:Gemini-2.5-pro 在所有提供商中保持一致的余弦距离(D≈17.37–18.04)
- 版本混淆:Gemini-2.0-flash 被识别为 gemini-2.5-flash(Shadow APIs E 和 H)
DeepSeek 家族:
- 身份不匹配:
- DeepSeek-Chat → gemma-2-9b-it(Shadow API H)
- DeepSeek-Reasoner → deepseek-chat(Shadow APIs A 和 H)
余弦距离分析
余弦距离解释:
- 绿色(D ≤ 1.2×基线):与官方一致
- 黄色(D > 1.2×基线):显著偏差
- 红色(错误模型):身份验证失败
关键观察:
- 即使模型家族正确,距离也可能 inflated:表明可能是同一家族的不同版本或微调变体
- Gemini-2.5-pro 最稳定:在所有提供商中保持一致
- GPT 和 DeepSeek 家族最不可靠:频繁身份不匹配
元数据分析
补充证据:
- 推理延迟差异:某些 Shadow APIs 表现出与官方模型不一致的延迟模式
- Token 计数异常:响应长度和 Token 使用模式与声称的模型不匹配
- 受控验证:附录 F 提供了检测方法的受控验证结果
失败模式分类
基于实验结果,识别以下 Shadow API 欺骗模式:
模式 1:模型降级(Model Downgrading)
特征:
- 声称提供前沿模型(如 GPT-5、Gemini-2.5)
- 实际提供较小、较便宜的模型(如 Qwen2.5-7B、glm-4-9b)
- 在推理密集型任务上性能显著下降
证据:
- 指纹识别显示不同模型身份
- AIME 2025 和 GPQA 上的性能下降
- 余弦距离显著偏差
模式 2:版本欺骗(Version Spoofing)
特征:
- 声称提供特定版本(如 gpt-5-2025-08-07)
- 实际提供不同版本或旧版本
- 性能参数和行为与声称版本不匹配
证据:
- 元数据分析显示版本不匹配
- 推理努力和输出质量不一致
模式 3:安全配置差异(Safety Configuration Variance)
特征:
- 安全过滤配置与官方不同
- 可能过度过滤或过滤不足
- 导致不可预测的安全行为
证据:
- JailbreakBench 和 AdvBench 上的不一致表现
- 有害性评分的系统性偏差
模式 4:选择性路由(Selective Routing)
特征:
- 某些请求路由到官方模型(如 Shadow API E)
- 其他请求路由到替代模型
- 基于成本、负载或请求类型动态决策
证据:
- Shadow API E 在某些基准上接近官方性能
- 但在其他任务上仍表现偏差
- 指纹识别部分通过、部分失败
量化总结表
表:Shadow APIs 性能对比摘要
| 评估维度 | 指标 | 官方 API | Shadow API A | Shadow API E | Shadow API H |
|---|---|---|---|---|---|
| AIME 2025 | GPT-5-mini | 基准 | -X.X% | -X.X% | -X.X% |
| AIME 2025 | Gemini-2.5-pro | 基准 | -40.00% | -X.X% | -X.X% |
| GPQA | 平均差异 | 基准 | -9.81% | -2.64% | -6.46% |
| MedQA | Gemini-2.5-flash | 83.82% | ~37% | ~37% | ~37% |
| LegalBench | 平均差距 | 基准 | -40.10% | -X.X% | -42.73% |
| 安全 | 有害性偏差 | 基准 | 2×或-0.23 | 可变 | 可变 |
| 指纹 | 失败率 | N/A | 45.83% | 45.83% | 45.83% |
注:具体数值需参考原论文图表
参考资料
- Real Money, Fake Models: Deceptive Model Claims in Shadow APIs - 原始论文,Section 4-5 和附录
- Appendix B: Detailed Discrepancy - 详细差异表
- Appendix C: Safety Evaluation on AdvBench - AdvBench 安全评估结果