核心发现

实验结果性能分析模型验证

呈现 Shadow APIs 在科学领域、敏感领域、安全性评估和模型验证方面的实验结果与关键发现

发现概览

本研究通过三阶段审计揭示了 Shadow APIs 的欺骗性行为和严重性能问题。以下是主要发现的量化总结：

评估维度	关键指标	发现
性能一致性	最高性能差异	47.21%（Gemini-2.5-flash 在 MedQA）
安全行为	有害性评分偏差	低估约 0.23 或翻倍
模型验证	指纹验证失败率	45.83% 的端点失败
模型验证	余弦距离偏差	额外 12.50% 显著偏离

科学领域性能评估

AIME 2025（数学竞赛）

整体趋势：

官方 API 通常建立性能上限
Shadow API E 表现异常一致，与官方平均差异仅 2.64%
Shadow APIs A 和 H 在推理密集型任务上表现显著下降

关键发现：

Shadow API E 的一致性：
- 在某些情况下甚至略微超越官方 API（如 GPT-5-mini 在 GPQA 上高出 1.18%）
- 表明某些 Shadow API 可能确实路由到官方模型
Shadow API A 的严重退化：
- Gemini-2.5-pro：下降 40.00%
- DeepSeek-Reasoner：下降 38.89%
- 表明高级推理能力被严重损害
非推理任务 vs 推理任务：
- 在非推理任务上，Shadow APIs 表现与官方相当
- 在推理密集型模型上，性能显著退化
- 暗示 Shadow APIs 可能使用较小的蒸馏模型替代推理模型

GPQA（Diamond）（博士级科学问题）

性能对比：

官方 APIs 表现出最小的性能方差
Shadow APIs 显示出显著更高的变异性
Shadow API A 平均差距：9.81%
Shadow API H 平均差距：6.46%

解释：

推理能力的损害在需要多步推理的任务中更为明显
Shadow APIs 可能在计算密集型请求上使用成本更低的模型

敏感领域性能评估

医学领域（MedQA USMLE）

灾难性性能下降：

Gemini-2.5-flash：从官方 83.82% 降至所有 Shadow APIs 平均 36.95%
性能缺陷：46.51%–47.21%
所有 Shadow APIs 一致崩溃：A、E、H 均表现出类似的大幅下降

临床意义：

这一性能下降可能导致严重的医疗误诊风险
依赖 Shadow APIs 进行专业医疗指导构成严重安全隐患

法律领域（LegalBench Scalr）

一致性下降：

所有 Shadow APIs：落后官方端点 40.10% 至 42.73%
DeepSeek-Chat 不稳定性：在法律领域表现特别不稳定
- Shadow API E 和 H 相对稳定
- Shadow API A 准确率下降 9.98%

失败案例分析：

基准	问题	官方 API 回答	Shadow API 回答
MedQA	围产期 HIV 筛查确认测试	HIV-1/HIV-2 抗体分化免疫测定 ✓	A/E/H: 确定病毒基因型 ✗
LegalBench	Rule 606(b) 允许陪审员证词证明 voir dire 不诚实	Rule 606(b) 适用/禁止证词即使 voir dire 撒谎 ✓	A/H: 混淆”新审判”标准与可采性 ✗ E: 引用无关人身保护令规则 ✗

统计显著性：

在医学和法律领域的不可靠性具有统计显著性
Gemini-2.5-flash 的 Shadow APIs 在几乎一半的评估案例中无法复现官方 API 的正确答案

安全性评估结果

JailbreakBench 评估

GPT-5-mini 表现（图 5a）：

Base64 攻击：Shadow API A 有害性评分 0.04，是官方 API 0.02 的两倍
FlipAttack：Shadow API A 和 E 显著低估风险

Gemini-2.5-flash 表现（图 5b）：

所有 Shadow APIs 低估风险：比官方 API 更安全
FlipAttack 差距：官方 API 达到 0.90 高有害性评分，所有 Shadow APIs 约 0.67-0.68
差距：约 0.23

DeepSeek-Chat 表现（图 5c）：

与 GPT-5-mini 和 Gemini-2.5-flash 相比差异较小
但与官方 API 仍存在可测量的差异
Shadow APIs A 和 H 在 Combination 攻击下生成更多有害内容，在 FlipAttack 下生成较少

AdvBench 评估

结果模式：与 JailbreakBench 类似

详细结果见附录 C
确认 Shadow APIs 在安全评估中不可靠

关键洞见

不可预测的安全行为：

Shadow APIs 可能高估或低估风险，取决于模型和攻击类型
这种不一致性使依赖 Shadow APIs 进行安全评估变得不可靠
无法复现官方端点的安全行为

模型验证结果

指纹识别验证

总体统计（24 个评估端点）：

指纹验证失败：45.83%（11/24）
余弦距离显著偏差：12.50%（3/24）
通过验证：41.67%（10/24）

按模型家族分析

GPT 家族：

频繁身份不匹配：
- GPT-4o-mini → Qwen2.5-7B（Shadow API H）
- GPT-5 → glm-4-9b-chat（Shadow APIs A 和 E）
- GPT-5-mini → gpt-5-2025-08-07（错误版本）（Shadow API H）
余弦距离膨胀：即使正确识别为同一家族，也常表现出 inflated 余弦距离
- 例如：GPT-5-mini 在 Shadow API A，D=18.63±2.72 vs 官方基线 14.57±3.82

Gemini 家族：

相对高稳定性：Gemini-2.5-pro 在所有提供商中保持一致的余弦距离（D≈17.37–18.04）
版本混淆：Gemini-2.0-flash 被识别为 gemini-2.5-flash（Shadow APIs E 和 H）

DeepSeek 家族：

身份不匹配：
- DeepSeek-Chat → gemma-2-9b-it（Shadow API H）
- DeepSeek-Reasoner → deepseek-chat（Shadow APIs A 和 H）

余弦距离分析

余弦距离解释：

绿色（D ≤ 1.2×基线）：与官方一致
黄色（D > 1.2×基线）：显著偏差
红色（错误模型）：身份验证失败

关键观察：

即使模型家族正确，距离也可能 inflated：表明可能是同一家族的不同版本或微调变体
Gemini-2.5-pro 最稳定：在所有提供商中保持一致
GPT 和 DeepSeek 家族最不可靠：频繁身份不匹配

元数据分析

补充证据：

推理延迟差异：某些 Shadow APIs 表现出与官方模型不一致的延迟模式
Token 计数异常：响应长度和 Token 使用模式与声称的模型不匹配
受控验证：附录 F 提供了检测方法的受控验证结果

失败模式分类

基于实验结果，识别以下 Shadow API 欺骗模式：

模式 1：模型降级（Model Downgrading）

特征：

声称提供前沿模型（如 GPT-5、Gemini-2.5）
实际提供较小、较便宜的模型（如 Qwen2.5-7B、glm-4-9b）
在推理密集型任务上性能显著下降

证据：

指纹识别显示不同模型身份
AIME 2025 和 GPQA 上的性能下降
余弦距离显著偏差

模式 2：版本欺骗（Version Spoofing）

特征：

声称提供特定版本（如 gpt-5-2025-08-07）
实际提供不同版本或旧版本
性能参数和行为与声称版本不匹配

证据：

元数据分析显示版本不匹配
推理努力和输出质量不一致

模式 3：安全配置差异（Safety Configuration Variance）

特征：

安全过滤配置与官方不同
可能过度过滤或过滤不足
导致不可预测的安全行为

证据：

JailbreakBench 和 AdvBench 上的不一致表现
有害性评分的系统性偏差

模式 4：选择性路由（Selective Routing）

特征：

某些请求路由到官方模型（如 Shadow API E）
其他请求路由到替代模型
基于成本、负载或请求类型动态决策

证据：

Shadow API E 在某些基准上接近官方性能
但在其他任务上仍表现偏差
指纹识别部分通过、部分失败

量化总结表

表：Shadow APIs 性能对比摘要

评估维度	指标	官方 API	Shadow API A	Shadow API E	Shadow API H
AIME 2025	GPT-5-mini	基准	-X.X%	-X.X%	-X.X%
AIME 2025	Gemini-2.5-pro	基准	-40.00%	-X.X%	-X.X%
GPQA	平均差异	基准	-9.81%	-2.64%	-6.46%
MedQA	Gemini-2.5-flash	83.82%	~37%	~37%	~37%
LegalBench	平均差距	基准	-40.10%	-X.X%	-42.73%
安全	有害性偏差	基准	2×或-0.23	可变	可变
指纹	失败率	N/A	45.83%	45.83%	45.83%

注：具体数值需参考原论文图表

参考资料

Real Money, Fake Models: Deceptive Model Claims in Shadow APIs - 原始论文，Section 4-5 和附录
Appendix B: Detailed Discrepancy - 详细差异表
Appendix C: Safety Evaluation on AdvBench - AdvBench 安全评估结果