Shadow APIs LLM 审计 - 研究摘要

AI 研究 API 审计 LLM

分析论文《Real Money, Fake Models》对第三方 LLM API 服务的系统性审计，揭示 Shadow APIs 在性能、安全性和模型真实性方面的欺骗行为

Executive Summary

研究问题：随着 GPT-5、Gemini-2.5 等前沿大语言模型的普及，官方 API 面临高定价、支付壁垒和地区限制等问题，催生了”Shadow APIs”（影子 API）市场。这些第三方服务声称通过间接访问提供与官方 API 相同的输出，但其可靠性和真实性尚未经过系统性验证。

核心发现：本研究识别了 17 个广泛使用的 Shadow APIs，这些服务已被 187 篇学术论文采用（累计引用 5,966 次，GitHub stars 达 58,639）。通过对 3 个代表性 Shadow API 的多维度审计发现：（1）性能差异最高达 47.21%（Gemini-2.5-flash 在 MedQA 上从 83.82% 降至 37%）；（2）安全行为不可预测，有害性评分偏差达 0.23 或翻倍；（3）45.83% 的端点未能通过模型指纹验证，12.50% 表现出显著的余弦距离偏差。

影响与建议：Shadow APIs 的欺骗性行为严重损害了科学研究的可复现性，危及用户利益，并可能损害官方模型提供商的声誉。研究建议加强来源意识、实施模型验证机制，并在学术研究中强制披露 API 来源。

论文引用

论文标题: Real Money, Fake Models: Deceptive Model Claims in Shadow APIs

作者: Yage Zhang, Yukun Jiang, Zeyuan Chen, Michael Backes, Xinyue Shen, Yang Zhang

机构: CISPA Helmholtz Center for Information Security

arXiv: 2603.01919v2 [cs.CR] 05 Mar 2026

链接: https://arxiv.org/abs/2603.01919v2

核心参考资料 (References)

Real Money, Fake Models: Deceptive Model Claims in Shadow APIs - 原始论文 HTML 版本
LLMmap: Active Fingerprinting of LLMs - 模型指纹识别方法
OpenRouter Leaderboard - LLM 使用量排名参考
JailbreakBench - 安全评估基准
AdvBench - 对抗性安全基准

Executive Summary

Table of Contents

论文引用

核心参考资料 (References)