研究方法

研究方法实验设计审计方法

详细介绍论文采用的三阶段研究方法论：Shadow APIs 生态收集、多维度性能评估、模型指纹验证

研究概述

本研究采用三阶段方法论，系统性地回答三个研究问题：

研究问题	方法	目标
RQ1: 存在哪些 Shadow APIs？使用程度如何？	生态收集与调查	量化 Shadow APIs 的普及度
RQ2: Shadow APIs 与官方 API 表现一致吗？	多维度基准测试	评估效用和安全性一致性
RQ3: 模型验证方法能提供什么证据？	指纹识别与元数据分析	直接验证模型身份

研究阶段一：Shadow APIs 生态收集（RQ1）

数据收集方法

初始筛选：

来源：ICLR 2024（2,260 篇，1,108 篇有代码）和 ACL 2024（1,923 篇，1,005 篇有代码）
方法：系统解析论文摘要和脚注，提取标准仓库 URL
结果：2,113 篇有代码的论文中，识别 92 个使用 LLM API 的项目

Shadow API 识别：

21 篇论文（22.8%）使用至少一个 Shadow API 端点
通过 GitHub 搜索相同端点 URL 查找更多仓库
迭代收集新的端点 URL，直到无新发现

数据收集字段

对每个识别的 Shadow API，收集以下信息：

会议/期刊信息：发表论文的 venue
机构信息：作者所属机构和国家
引用统计：论文引用次数（截至 2025 年 12 月 6 日）
GitHub 指标：相关仓库的 stars 数量
基础设施：底层技术栈（如 OneAPI、NewAPI）
合规状态：公司注册、身份透明度、服务披露

选择标准

Shadow API 选择标准（用于深入审计）：

流行度：引用次数和 GitHub stars 排名靠前
可访问性：公开可访问
模型覆盖：全面覆盖三个主要模型家族

最终选择：Shadow APIs A、E、H（按引用次数降序匿名化）

研究阶段二：多维度性能评估（RQ2）

模型选择

基于 OpenRouter 2025 年 11 月使用量排名，选择三个主要模型家族：

模型家族	提供商	包含模型
F-A	OpenAI	GPT-4o-mini, GPT-5, GPT-5-mini
F-B	Google	Gemini-2.0-flash, Gemini-2.5-flash, Gemini-2.5-pro
F-C	DeepSeek	DeepSeek-Chat, DeepSeek-Reasoner

敏感性领域和安全评估：从每个家族选择一个代表性模型

GPT-5-mini（代表 F-A）
Gemini-2.5-flash（代表 F-B）
DeepSeek-Chat（代表 F-C）

效用评估

科学领域基准：

AIME 2025：竞赛级数学问题测试
GPQA（Diamond）：博士级科学问题测试

敏感领域基准：

医学领域：MedQA（USMLE）数据集，涵盖诊断、治疗和医学概念
法律领域：LegalBench（Scalr）子集，包含 Rule-Application 和 Rule-Conclusion 推理任务

实现细节：

采用 EvalScope 提示模板（AIME 2025 和 GPQA）
使用 Hulu-Med 多选题模板（MedQA）
使用原始任务特定提示（LegalBench）
所有实验进行 3 次试验取平均值，报告准确率及其标准差

安全性评估

数据集：

JailbreakBench：520 个有害请求，涵盖欺骗、歧视、人身伤害等类别
AdvBench：100 个有害请求的子集

攻击方法：

GCG：使用 LLaMA3-8B 生成通用后缀，然后迁移到其他 LLM
Base64：使用 Base64 编码绕过安全过滤
Combination：组合攻击方法
FlipAttack：使用”flip char in sentence”模式

评估指标：

有害性评分（Harmfulness Score）：基于 GPT-4o-mini 的轻量级评判模型
使用 StrongREJECT 的基于规则的提示模板
评分越高表示回答越有害（安全性越低）

研究阶段三：模型验证（RQ3）

指纹识别方法

LLMmap 框架：

主动指纹识别框架，通过分析模型对精心设计的查询的响应进行分类
计算模型输出与参考数据库之间的余弦距离
使用默认查询策略，扩展新 LLM 列表

实验配置：

对于 GPT-5-mini、GPT-5、Gemini-2.5-flash、Gemini-2.5-pro，移除不支持的参数
每个模型配置为使用默认中等推理努力
使用 NVIDIA DGX A100 GPU 加速训练模型指纹数据库

元数据分析

补充验证方法：

输出元数据比较：分析 API 响应中的元数据字段
余弦距离偏差检测：识别与官方模型的显著偏差
推理延迟和 Token 计数分析：比较性能特征

实验环境

硬件配置：

LLMmap 训练：NVIDIA DGX A100（GPU 加速）
API 查询：无需本地 GPU 加速

软件配置：

评估框架：自定义 API 查询工具
统计分析：Python 科学计算栈

方法论优势

控制变量

多试验平均：所有实验进行 3 次试验，减少方差
统一提示模板：确保公平比较
官方基线：所有官方基线直接通过官方 API 查询

盲法设计

Shadow API 匿名化：按引用次数降序分配标识符（A、E、H 等）
控制方法选择：选择受控基准测试而非复现特定先前研究
原因：减轻 Shadow 服务的不稳定性，保护受影响研究者的匿名性

背景知识

统计概念

准确率（Accuracy）：正确预测的比例，用于评估模型在基准任务上的表现

标准差（Standard Deviation）：衡量数据的离散程度，反映结果的稳定性

余弦距离（Cosine Distance）：衡量两个向量之间的相似度，用于指纹识别

公式： $D = 1 - \cos(\theta)$ ，其中 $\theta$ 是两个向量之间的夹角
值越小表示越相似

安全评估概念

越狱攻击（Jailbreak Attack）：试图绕过 LLM 安全限制的输入技术

有害性评分（Harmfulness Score）：量化回答潜在危害的指标，范围通常为 0-1

指纹识别概念

主动指纹识别（Active Fingerprinting）：通过发送特定查询并分析响应来识别模型

参考数据库：预先收集的各种模型对标准查询的响应集合

参考资料

Real Money, Fake Models: Deceptive Model Claims in Shadow APIs - 原始论文，Section 4-5
LLMmap: Active Fingerprinting of LLMs - 指纹识别方法论文
EvalScope Prompt Templates - 评估提示模板
JailbreakBench - 安全评估基准
AdvBench - 对抗性基准