Logo
热心市民王先生

研究方法

研究方法 实验设计 审计方法

详细介绍论文采用的三阶段研究方法论:Shadow APIs 生态收集、多维度性能评估、模型指纹验证

研究概述

本研究采用三阶段方法论,系统性地回答三个研究问题:

研究问题方法目标
RQ1: 存在哪些 Shadow APIs?使用程度如何?生态收集与调查量化 Shadow APIs 的普及度
RQ2: Shadow APIs 与官方 API 表现一致吗?多维度基准测试评估效用和安全性一致性
RQ3: 模型验证方法能提供什么证据?指纹识别与元数据分析直接验证模型身份

研究阶段一:Shadow APIs 生态收集(RQ1)

数据收集方法

初始筛选

  • 来源:ICLR 2024(2,260 篇,1,108 篇有代码)和 ACL 2024(1,923 篇,1,005 篇有代码)
  • 方法:系统解析论文摘要和脚注,提取标准仓库 URL
  • 结果:2,113 篇有代码的论文中,识别 92 个使用 LLM API 的项目

Shadow API 识别

  • 21 篇论文(22.8%)使用至少一个 Shadow API 端点
  • 通过 GitHub 搜索相同端点 URL 查找更多仓库
  • 迭代收集新的端点 URL,直到无新发现

数据收集字段

对每个识别的 Shadow API,收集以下信息:

  • 会议/期刊信息:发表论文的 venue
  • 机构信息:作者所属机构和国家
  • 引用统计:论文引用次数(截至 2025 年 12 月 6 日)
  • GitHub 指标:相关仓库的 stars 数量
  • 基础设施:底层技术栈(如 OneAPI、NewAPI)
  • 合规状态:公司注册、身份透明度、服务披露

选择标准

Shadow API 选择标准(用于深入审计):

  1. 流行度:引用次数和 GitHub stars 排名靠前
  2. 可访问性:公开可访问
  3. 模型覆盖:全面覆盖三个主要模型家族

最终选择:Shadow APIs A、E、H(按引用次数降序匿名化)

研究阶段二:多维度性能评估(RQ2)

模型选择

基于 OpenRouter 2025 年 11 月使用量排名,选择三个主要模型家族:

模型家族提供商包含模型
F-AOpenAIGPT-4o-mini, GPT-5, GPT-5-mini
F-BGoogleGemini-2.0-flash, Gemini-2.5-flash, Gemini-2.5-pro
F-CDeepSeekDeepSeek-Chat, DeepSeek-Reasoner

敏感性领域和安全评估:从每个家族选择一个代表性模型

  • GPT-5-mini(代表 F-A)
  • Gemini-2.5-flash(代表 F-B)
  • DeepSeek-Chat(代表 F-C)

效用评估

科学领域基准

  • AIME 2025:竞赛级数学问题测试
  • GPQA(Diamond):博士级科学问题测试

敏感领域基准

  • 医学领域:MedQA(USMLE)数据集,涵盖诊断、治疗和医学概念
  • 法律领域:LegalBench(Scalr)子集,包含 Rule-Application 和 Rule-Conclusion 推理任务

实现细节

  • 采用 EvalScope 提示模板(AIME 2025 和 GPQA)
  • 使用 Hulu-Med 多选题模板(MedQA)
  • 使用原始任务特定提示(LegalBench)
  • 所有实验进行 3 次试验取平均值,报告准确率及其标准差

安全性评估

数据集

  • JailbreakBench:520 个有害请求,涵盖欺骗、歧视、人身伤害等类别
  • AdvBench:100 个有害请求的子集

攻击方法

  1. GCG:使用 LLaMA3-8B 生成通用后缀,然后迁移到其他 LLM
  2. Base64:使用 Base64 编码绕过安全过滤
  3. Combination:组合攻击方法
  4. FlipAttack:使用”flip char in sentence”模式

评估指标

  • 有害性评分(Harmfulness Score):基于 GPT-4o-mini 的轻量级评判模型
  • 使用 StrongREJECT 的基于规则的提示模板
  • 评分越高表示回答越有害(安全性越低)

研究阶段三:模型验证(RQ3)

指纹识别方法

LLMmap 框架

  • 主动指纹识别框架,通过分析模型对精心设计的查询的响应进行分类
  • 计算模型输出与参考数据库之间的余弦距离
  • 使用默认查询策略,扩展新 LLM 列表

实验配置

  • 对于 GPT-5-mini、GPT-5、Gemini-2.5-flash、Gemini-2.5-pro,移除不支持的参数
  • 每个模型配置为使用默认中等推理努力
  • 使用 NVIDIA DGX A100 GPU 加速训练模型指纹数据库

元数据分析

补充验证方法

  • 输出元数据比较:分析 API 响应中的元数据字段
  • 余弦距离偏差检测:识别与官方模型的显著偏差
  • 推理延迟和 Token 计数分析:比较性能特征

实验环境

硬件配置

  • LLMmap 训练:NVIDIA DGX A100(GPU 加速)
  • API 查询:无需本地 GPU 加速

软件配置

  • 评估框架:自定义 API 查询工具
  • 统计分析:Python 科学计算栈

方法论优势

控制变量

  1. 多试验平均:所有实验进行 3 次试验,减少方差
  2. 统一提示模板:确保公平比较
  3. 官方基线:所有官方基线直接通过官方 API 查询

盲法设计

  • Shadow API 匿名化:按引用次数降序分配标识符(A、E、H 等)
  • 控制方法选择:选择受控基准测试而非复现特定先前研究
  • 原因:减轻 Shadow 服务的不稳定性,保护受影响研究者的匿名性

背景知识

统计概念

准确率(Accuracy):正确预测的比例,用于评估模型在基准任务上的表现

标准差(Standard Deviation):衡量数据的离散程度,反映结果的稳定性

余弦距离(Cosine Distance):衡量两个向量之间的相似度,用于指纹识别

  • 公式:D=1cos(θ)D = 1 - \cos(\theta),其中 θ\theta 是两个向量之间的夹角
  • 值越小表示越相似

安全评估概念

越狱攻击(Jailbreak Attack):试图绕过 LLM 安全限制的输入技术

有害性评分(Harmfulness Score):量化回答潜在危害的指标,范围通常为 0-1

指纹识别概念

主动指纹识别(Active Fingerprinting):通过发送特定查询并分析响应来识别模型

参考数据库:预先收集的各种模型对标准查询的响应集合

参考资料