研究方法
研究方法 实验设计 审计方法
详细介绍论文采用的三阶段研究方法论:Shadow APIs 生态收集、多维度性能评估、模型指纹验证
研究概述
本研究采用三阶段方法论,系统性地回答三个研究问题:
| 研究问题 | 方法 | 目标 |
|---|---|---|
| RQ1: 存在哪些 Shadow APIs?使用程度如何? | 生态收集与调查 | 量化 Shadow APIs 的普及度 |
| RQ2: Shadow APIs 与官方 API 表现一致吗? | 多维度基准测试 | 评估效用和安全性一致性 |
| RQ3: 模型验证方法能提供什么证据? | 指纹识别与元数据分析 | 直接验证模型身份 |
研究阶段一:Shadow APIs 生态收集(RQ1)
数据收集方法
初始筛选:
- 来源:ICLR 2024(2,260 篇,1,108 篇有代码)和 ACL 2024(1,923 篇,1,005 篇有代码)
- 方法:系统解析论文摘要和脚注,提取标准仓库 URL
- 结果:2,113 篇有代码的论文中,识别 92 个使用 LLM API 的项目
Shadow API 识别:
- 21 篇论文(22.8%)使用至少一个 Shadow API 端点
- 通过 GitHub 搜索相同端点 URL 查找更多仓库
- 迭代收集新的端点 URL,直到无新发现
数据收集字段
对每个识别的 Shadow API,收集以下信息:
- 会议/期刊信息:发表论文的 venue
- 机构信息:作者所属机构和国家
- 引用统计:论文引用次数(截至 2025 年 12 月 6 日)
- GitHub 指标:相关仓库的 stars 数量
- 基础设施:底层技术栈(如 OneAPI、NewAPI)
- 合规状态:公司注册、身份透明度、服务披露
选择标准
Shadow API 选择标准(用于深入审计):
- 流行度:引用次数和 GitHub stars 排名靠前
- 可访问性:公开可访问
- 模型覆盖:全面覆盖三个主要模型家族
最终选择:Shadow APIs A、E、H(按引用次数降序匿名化)
研究阶段二:多维度性能评估(RQ2)
模型选择
基于 OpenRouter 2025 年 11 月使用量排名,选择三个主要模型家族:
| 模型家族 | 提供商 | 包含模型 |
|---|---|---|
| F-A | OpenAI | GPT-4o-mini, GPT-5, GPT-5-mini |
| F-B | Gemini-2.0-flash, Gemini-2.5-flash, Gemini-2.5-pro | |
| F-C | DeepSeek | DeepSeek-Chat, DeepSeek-Reasoner |
敏感性领域和安全评估:从每个家族选择一个代表性模型
- GPT-5-mini(代表 F-A)
- Gemini-2.5-flash(代表 F-B)
- DeepSeek-Chat(代表 F-C)
效用评估
科学领域基准:
- AIME 2025:竞赛级数学问题测试
- GPQA(Diamond):博士级科学问题测试
敏感领域基准:
- 医学领域:MedQA(USMLE)数据集,涵盖诊断、治疗和医学概念
- 法律领域:LegalBench(Scalr)子集,包含 Rule-Application 和 Rule-Conclusion 推理任务
实现细节:
- 采用 EvalScope 提示模板(AIME 2025 和 GPQA)
- 使用 Hulu-Med 多选题模板(MedQA)
- 使用原始任务特定提示(LegalBench)
- 所有实验进行 3 次试验取平均值,报告准确率及其标准差
安全性评估
数据集:
- JailbreakBench:520 个有害请求,涵盖欺骗、歧视、人身伤害等类别
- AdvBench:100 个有害请求的子集
攻击方法:
- GCG:使用 LLaMA3-8B 生成通用后缀,然后迁移到其他 LLM
- Base64:使用 Base64 编码绕过安全过滤
- Combination:组合攻击方法
- FlipAttack:使用”flip char in sentence”模式
评估指标:
- 有害性评分(Harmfulness Score):基于 GPT-4o-mini 的轻量级评判模型
- 使用 StrongREJECT 的基于规则的提示模板
- 评分越高表示回答越有害(安全性越低)
研究阶段三:模型验证(RQ3)
指纹识别方法
LLMmap 框架:
- 主动指纹识别框架,通过分析模型对精心设计的查询的响应进行分类
- 计算模型输出与参考数据库之间的余弦距离
- 使用默认查询策略,扩展新 LLM 列表
实验配置:
- 对于 GPT-5-mini、GPT-5、Gemini-2.5-flash、Gemini-2.5-pro,移除不支持的参数
- 每个模型配置为使用默认中等推理努力
- 使用 NVIDIA DGX A100 GPU 加速训练模型指纹数据库
元数据分析
补充验证方法:
- 输出元数据比较:分析 API 响应中的元数据字段
- 余弦距离偏差检测:识别与官方模型的显著偏差
- 推理延迟和 Token 计数分析:比较性能特征
实验环境
硬件配置:
- LLMmap 训练:NVIDIA DGX A100(GPU 加速)
- API 查询:无需本地 GPU 加速
软件配置:
- 评估框架:自定义 API 查询工具
- 统计分析:Python 科学计算栈
方法论优势
控制变量
- 多试验平均:所有实验进行 3 次试验,减少方差
- 统一提示模板:确保公平比较
- 官方基线:所有官方基线直接通过官方 API 查询
盲法设计
- Shadow API 匿名化:按引用次数降序分配标识符(A、E、H 等)
- 控制方法选择:选择受控基准测试而非复现特定先前研究
- 原因:减轻 Shadow 服务的不稳定性,保护受影响研究者的匿名性
背景知识
统计概念
准确率(Accuracy):正确预测的比例,用于评估模型在基准任务上的表现
标准差(Standard Deviation):衡量数据的离散程度,反映结果的稳定性
余弦距离(Cosine Distance):衡量两个向量之间的相似度,用于指纹识别
- 公式:,其中 是两个向量之间的夹角
- 值越小表示越相似
安全评估概念
越狱攻击(Jailbreak Attack):试图绕过 LLM 安全限制的输入技术
有害性评分(Harmfulness Score):量化回答潜在危害的指标,范围通常为 0-1
指纹识别概念
主动指纹识别(Active Fingerprinting):通过发送特定查询并分析响应来识别模型
参考数据库:预先收集的各种模型对标准查询的响应集合
参考资料
- Real Money, Fake Models: Deceptive Model Claims in Shadow APIs - 原始论文,Section 4-5
- LLMmap: Active Fingerprinting of LLMs - 指纹识别方法论文
- EvalScope Prompt Templates - 评估提示模板
- JailbreakBench - 安全评估基准
- AdvBench - 对抗性基准