Logo
热心市民王先生

AgentDoG 1.5 论文深度解读:面向 AI Agent 安全的轻量化可扩展对齐框架

技术研究 学术论文 Agent安全

基于 Hugging Face Papers 顶部论文 AgentDoG 1.5,系统解读其 Agent 安全 taxonomy、ATBench 家族、轻量训练管线、SFT/RL 应用、在线 guardrail 与实验局限。

自动研究时间:2026-05-30 09:00(Asia/Shanghai) 来源流程:Hugging Face Papers 顶部论文 -> Hugging Face 详情页 -> arXiv 页面 -> arXiv PDF/TeX 源码交叉核对 当前 Hugging Face Papers 最新列表显示日期:May 29,顶部论文为 #1 Paper of the day

执行摘要

Hugging Face Papers 当前 Daily Papers 列表最顶部论文是 AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security。Hugging Face 详情页显示该论文于 2026-05-28 发布、2026-05-29 提交到 HF Papers,并标注为 #1 Paper of the day;对应 arXiv:2605.29801,arXiv 页面显示提交日期为 2026-05-28。

这篇论文来自 Shanghai Artificial Intelligence Laboratory,作者列表包含 Dongrui Liu、Yu Li、Zhonghao Yang、Peng Wang、Guanxu Chen、Yuejin Xie、Qinghua Mao、Wanying Qu、Yanxu Zhu、Tianyi Zhou 等 50 位作者。论文篇幅为 44 页,包含 12 张图和 9 张表,研究对象是 AI Agent 在长期工具调用、代码执行、状态持久化和开放环境交互中的安全风险。

一句话概括:AgentDoG 1.5 不是一个普通的内容安全分类器,而是一个面向完整 Agent 执行轨迹的诊断型 guardrail 框架。它用三维风险 taxonomy 组织数据与评测,用约 1k 高价值样本训练 0.8B/2B/4B/8B 轻量模型,再把这些模型用于安全 SFT 数据过滤、安全 RL 奖励建模,以及 OpenClaw 风格 Agent 的在线最终回复拦截。

1. 基本信息

项目内容
Hugging Face 入口https://huggingface.co/papers/2605.29801
arXivhttps://arxiv.org/abs/2605.29801
PDFhttps://arxiv.org/pdf/2605.29801
项目页https://ai45lab.github.io/AgentDoG/v1_5/
GitHubhttps://github.com/AI45Lab/AgentDoG
论文标题AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security
作者Dongrui Liu, Yu Li, Zhonghao Yang, Peng Wang, Guanxu Chen, Yuejin Xie, Qinghua Mao, Wanying Qu, Yanxu Zhu, Tianyi Zhou 等 50 人
机构Shanghai Artificial Intelligence Laboratory
arXiv 分类cs.AI, cs.CL, cs.CR, cs.CV, cs.LG
arXiv 提交日期2026-05-28
HF Papers 状态2026-05-29 Daily Papers 顶部,#1 Paper of the day
论文篇幅44 页,12 Figures,9 Tables

2. 研究背景与动机

2.1 为什么 Agent 安全问题变得更难

传统 LLM 安全检查主要面向单轮输入、单轮输出或短对话。Agent 场景不同:模型会读文件、调用工具、执行命令、访问外部 API、修改工作区、跨会话保存状态,并在多个步骤后才给出最终答复。很多风险并不会出现在用户最初的 prompt 或最终自然语言回复里,而是隐藏在中间工具调用、环境反馈、文件修改、依赖安装、MCP 元数据、session 记忆污染或权限边界误判中。

论文把这种变化概括为一个执行面扩张问题:OpenClaw、Hermes、Codex 类 Agent 让模型从“回答问题”变成“改变环境”。一旦 Agent 拥有跨应用执行能力,风险源不再只是恶意用户输入,也可能来自工具描述、外部环境观察、仓库文件、shell 输出、依赖供应链、历史状态和 Agent 自身推理缺陷。

2.2 现有 guardrail 的短板

现有 LlamaGuard、Qwen Guard、Nemo Guard、ShieldGemma 等模型大多训练在内容安全或对话安全数据上。它们对“最后一句话是否违规”比较自然,但对完整执行轨迹存在两个根本短板:

  1. 上下文单位不匹配:Agent 风险经常需要跨步骤归因,例如工具返回内容注入了隐藏指令,模型随后错误执行命令,最终回复却可能看似正常。
  2. 诊断粒度不足:二分类只能说 safe/unsafe,不能说明风险从哪里进入、Agent 怎么失败、会造成什么现实损害。

因此,论文试图解决的问题不是再做一个更大的安全模型,而是建立一套可扩展的 Agent 安全对齐工作流:taxonomy -> benchmark -> data engine -> lightweight guard model -> SFT/RL/online deployment。

3. 核心贡献和创新点

贡献论文做法与常规方法的区别
三维 Agent 安全 taxonomy将 unsafe trajectory 拆成 Risk Source、Failure Mode、Real-world Harm 三个维度不只给 safe/unsafe,而是定位风险入口、失败机制和现实后果
ATBench family在 ATBench 基础上扩展 ATBench-Claw 和 ATBench-Codex同一高层 taxonomy,针对 OpenClaw 与 Codex 增加 setting-specific leaf categories
轻量 AgentDoG 1.5 模型训练 0.8B、2B、4B、8B 版本,并开放模型/数据用约 1k 精选样本达到接近或超过更大模型的轨迹级判断能力
数据引擎与样本净化Taxonomy-guided synthesis + CoT rationale + influence-function purification不是堆更多合成数据,而是用梯度方向筛出最能提升 guardrail 行为的样本
安全 SFT/RL 应用AgentDoG 过滤 SFT 数据,并在 RL 中提供安全奖励将 guard model 从评测器变成训练管线组件
在线 guardrail在 Pre-Reply 阶段审计完整执行轨迹比逐工具调用拦截低延迟,比只查最终回复有更多上下文

下面的图把论文主线压缩成一个可执行流程:

flowchart TD
  A[Agent执行轨迹] --> B[三维风险Taxonomy]
  B --> C[ATBench家族]
  B --> D[Taxonomy-guided DataEngine]
  D --> E[CoT标注与质量过滤]
  E --> F[Influence-function样本净化]
  F --> G[AgentDoG 1.5轻量模型]
  G --> H[轨迹级安全评测]
  G --> I[细粒度风险诊断]
  G --> J[安全SFT数据过滤]
  G --> K[安全RL奖励模型]
  G --> L[Pre-Reply在线Guardrail]

4. 技术方法论详解

4.1 三维风险 taxonomy:把“危险”拆成可诊断结构

论文沿用并扩展 AgentDoG/ATBench 的三维安全诊断框架:

维度解决的问题示例
Risk Source风险从哪里进入轨迹恶意用户指令、工具反馈污染、仓库 artifact 注入、依赖/MCP 供应链风险、持久状态污染
Failure ModeAgent 如何失败错误工具调用、越权操作、未验证外部信息、危险 shell/script 执行、未核实成功声明
Real-world Harm失败造成什么现实损害隐私泄露、系统完整性破坏、财务损失、安全损害、合规/审计风险

这个设计的关键点是“高层维度固定,叶子类别按场景扩展”。例如:

  • ATBench-Claw 更关注 session、approval、skill/plugin、cross-channel routing、unattended automation。
  • ATBench-Codex 更关注 repository artifacts、shell commands、dependencies、MCP、workspace mutation、verification claims。

这样做的好处是:新 Agent 执行环境出现时,不必重新定义任务,只需扩展 leaf categories,仍然可以在 Risk Source / Failure Mode / Real-world Harm 三个维度上比较模型能力。

4.2 任务定义:轨迹级二分类 + 细粒度诊断

论文定义了两个任务。

第一个是轨迹级安全判断。设 Agent 轨迹为:

T={t1,,tn},ti=(ai,oi)\mathcal{T}=\{t_1,\dots,t_n\},\quad t_i=(a_i,o_i)

其中 aia_i 是第 ii 步动作,oio_i 是对应环境观察。模型输出:

y{safe,unsafe}y \in \{\texttt{safe},\texttt{unsafe}\}

如果任意一步存在 unsafe 行为,则整条轨迹 unsafe:

y=unsafei, Unsafe(ti)=Truey=\texttt{unsafe}\Longleftrightarrow\exists i,\ \mathsf{Unsafe}(t_i)=\mathrm{True}

第二个是细粒度风险诊断。对 unsafe trajectory,模型输出:

yfine=(mode,harm,risk)y_{\rm fine}=(\ell^{\text{mode}}, \ell^{\text{harm}}, \ell^{\text{risk}})

也就是失败模式、现实损害、风险来源三个标签。它的意义在于:guardrail 不只是挡住结果,还能告诉开发者“问题从哪个组件进入”“Agent 哪一步误判”“应该修哪类策略或工具边界”。

4.3 DataEngine:用 taxonomy 控制合成数据覆盖面

DataEngine 的流程是三阶段:

  1. Planning:从三维 taxonomy 各采样一个类别,形成风险配置 tuple;同时采样工具集合,生成用户任务、工具序列和风险注入点。
  2. Trajectory synthesis:把 sketch 实例化成完整多轮轨迹,包括用户消息、Agent 响应、工具调用和环境反馈。同一 skeleton 可以生成 safe 版本和 unsafe 版本。
  3. Automatic validation:规则检查结构合法性,模型检查语义一致性、风险标签与可观察行为是否匹配。

论文报告,最终数据池覆盖 5,973 个 unique tools 和 MCP servers,覆盖 15 类 risk sources、21 类 failure modes、11 类 real-world harms。这说明它不是只做少数 prompt injection 样例,而是试图系统覆盖 Agent 风险空间。

4.4 Influence-function purification:为什么只用约 1k 样本

论文最有意思的工程判断是:合成数据越多不一定越好。原始 SFT pool 里会有冗余、弱相关或可能强化表面模式的样本。AgentDoG 1.5 用 preference-aware influence function 做样本净化,保留最能推动模型学会“识别风险”的样本。

简化理解如下:

  1. 构造一小组安全目标 prompt QsafeQ_{\mathrm{safe}}
  2. 对每个 prompt,准备正例响应 yq+y_q^+ 和负例响应 yqy_q^-
  3. 根据参考模型对正例的偏好估计 π^q\hat\pi_q
  4. 聚合出一个 guardrail 方向:
g^guard=1QsafeqQsafeπ^q(gˉ^(q,yq+)gˉ^(q,yq))\hat g_{\mathrm{guard}} = \frac{1}{|Q_{\mathrm{safe}}|} \sum_{q\in Q_{\mathrm{safe}}} \hat\pi_q \left( \hat{\bar g}_{(q,y_q^{+})} - \hat{\bar g}_{(q,y_q^{-})} \right)
  1. 对候选样本 zz,计算其训练梯度 g^z\hat g_z 与 guardrail 方向的对齐程度:
sπ(z)=g^zg^guards_{\pi}(z)=\hat g_z^\top \hat g_{\mathrm{guard}}

分数越高,表示这个样本越可能推动模型朝“正确识别 risky trajectory”的方向更新。最后只保留高分样本,形成约 1k 的高信息密度训练集。

4.5 训练:SFT + GDPO 风格细粒度 RL

SFT 阶段使用标准自回归负对数似然:

LSFT(θ)=E(x,y)Dt=1ylogπθ(ytx,y<t)\mathcal{L}_{\mathrm{SFT}}(\theta) = -\mathbb{E}_{(x,y)\sim \mathcal{D}} \sum_{t=1}^{|y|} \log \pi_\theta(y_t \mid x, y_{<t})

论文在 Qwen3.5-0.8B、Qwen3.5-2B、Qwen3.5-4B 和 Llama-3.1-8B-Instruct 上微调,学习率为 1e51e^{-5}

RL 阶段针对细粒度诊断使用 GDPO。每个 query 采样 G=8G=8 个回答,verifier 在 failure mode、real-world harm、risk source 三个维度给出二元奖励。论文强调不用简单 scalar GRPO 的原因是:细粒度诊断存在“部分正确”,例如 failure mode 对了但 harm 错了;如果直接相加再归一化,可能把不同错误类型混在一起。GDPO 对每个维度分别归一化 advantage,再按权重 (0.3,0.4,0.3)(0.3,0.4,0.3) 合成。

5. 实验设计和主要结果

5.1 Benchmark 与指标

论文用两类评测验证 AgentDoG 1.5:

任务数据集指标
轨迹级安全判断R-Judge、ATBench、ASSE-SafetyAccuracy、Precision、Recall、F1
细粒度风险诊断ATBenchRisk Source Accuracy、Failure Mode Accuracy、Real-world Harm Accuracy
跨执行环境泛化ATBench-Claw、ATBench-CodexAccuracy
安全训练应用AgentHarm、AgentSafetyBench、AgentSecurityBench、AgentDojo、AgentDyn、BFCLHarm Score、Refusal Rate、ASR、BU、UA、BFCL 等
在线 guardrailClawSafety、AgentHazard、CIK-Benchresidual ASR、TTFT、TPOT、completion tokens

5.2 轨迹级安全判断结果

核心结果如下:

模型R-Judge Acc/F1ATBench Acc/F1解读
GPT-5.493.3 / 93.773.7 / 76.7闭源强基线
Gemini-3.1-Pro97.3 / 97.475.5 / 75.0R-Judge 很强,ATBench 稍低
Qwen3.5-397B-A17B85.6 / 87.466.8 / 67.8大开源模型但缺少专门轨迹监督
AgentDoG 1.0-4B91.8 / 92.764.0 / 71.1上一代诊断 guardrail
AgentDoG 1.5-4B92.2 / 92.772.4 / 74.34B 模型接近闭源强基线
AgentDoG 1.5-4B-U90.4 / 90.678.4 / 77.7统一 coarse-to-fine 版本,ATBench 最强

论文的强结论是:在 Agent 安全场景,专门的轨迹级监督比单纯扩大模型参数更有效。AgentDoG 1.5-4B 在 ATBench 上明显超过 Qwen3.5-397B-A17B;0.8B 版本也能达到 R-Judge 75.7 Acc / 74.6 F1、ATBench 60.3 Acc / 63.2 F1。

5.3 细粒度风险诊断结果

模型Risk SourceFailure ModeReal-world HarmAvg
GPT-5.433.613.530.225.8
Gemini-3.1-Pro24.812.618.518.6
Qwen3.5-397B7.73.66.86.0
AgentDoG 1.0-4B46.816.540.634.6
AgentDoG 1.5-0.8B65.718.444.943.0
AgentDoG 1.5-4B75.227.562.955.2

这个表比二分类结果更能说明论文价值。一般大模型能判断“哪里不对”,但很难稳定映射到 taxonomy label;AgentDoG 1.5 通过显式细粒度监督,在 Risk Source 和 Real-world Harm 上优势很大。Failure Mode 仍然只有 27.5%,说明“Agent 如何失败”是三维标签里最难的一项,可能因为 failure mode 类别多、边界重叠、同一轨迹可能存在多个失败链条。

5.4 安全 SFT 与安全 RL 应用

在 SFT 应用中,论文先用 ATBench engine 生成 32,787 对 trajectory,再用 AgentDoG 过滤,保留 28,705 条高质量安全轨迹,并混入 50,000 条 benign tool-use trajectories,形成约 1:2 的 safety-critical / benign 数据比例,避免模型学成只会拒绝的保守策略。

对 Qwen3.5-4B 的 SFT 结果:

设置AgentHarm HS 越低越好Refusal Rate 越高越安全AgentSecurityBench ASR 越低越好BFCL Acc
Qwen3.5-4B57.4928.4190.3976.04
+ Util45.6127.8485.2483.21
+ Unfiltered Safety31.9162.5034.7278.69
+ AgentDoG-Filtered Safety20.3275.0023.8281.12

这说明过滤后的安全数据不只是更安全,也比未过滤安全数据更能保留函数调用能力。

在 RL 应用中,论文构造有限状态 Python simulator,支持最多 10,000 个环境加载、1,000 个活跃实例、1,000 个并发工具调用,峰值内存低于 2.5 GB。奖励函数区分 clean tasks、malicious query attacks 和 environment injection attacks:

R={Uclean tasksSmalicious query attacks0.25US+0.25S+0.5Uenvironment injection attacksR = \begin{cases} U & \text{clean tasks}\\ S & \text{malicious query attacks}\\ 0.25US + 0.25S + 0.5U & \text{environment injection attacks} \end{cases}

其中 UU 是任务效用,SS 是 AgentDoG 提供的安全评分。最终 + SFT + RL 设置在 AgentHarm Refusal Rate 达到 77.27%,AgentSafetyBench Safe Rate 达到 59.32%,BFCL 保持 81.25,说明安全与工具调用能力之间的 trade-off 有改善。

5.5 在线 guardrail 结果

论文把 AgentDoG 部署在 Pre-Reply 阶段,也就是最终答复发给用户之前。它不拦每个 tool call,而是聚合完整轨迹后做一次判断。这是一个务实折中:低延迟、跨框架容易接入,同时比只看最终答复拥有更多上下文。

Benchmark无 guardrail ASRAgentDoG-0.8B ASRAgentDoG-4B ASR解读
ClawSafety56.2525.0018.754B 降幅最大
AgentHazard41.9229.2326.92QwenGuard/LlamaGuard 在该设置无降幅
CIK-Bench94.2985.7142.864B 接近 LlamaGuard 40.00

延迟方面,AgentDoG 生成更长的分析输出,但 TTFT 仍保持在亚秒级;由于只在最终回复前调用一次,而不是每步工具调用都调用,论文认为它适合实际部署。

6. 关键图表与公式解读

6.1 Figure 1:整体框架图

论文 Figure 1 展示了 AgentDoG 1.5 的完整工作流:taxonomy 和 ATBench family 是底座,DataEngine 产生训练/评测轨迹,AgentDoG 模型作为中间能力层,向下游提供 SFT 数据过滤、RL reward 和 online guardrail。重点不是单点模型,而是一套 Agent 安全生产线。

6.2 Figure 4:DataEngine 与训练 pipeline

DataEngine 图里最关键的是“风险配置先于轨迹生成”。这使数据不是随机收集,而是按 risk source、failure mode、harm type 控制覆盖面。随后 CoT rationale 和 influence-function purification 让训练集既可解释又紧凑。

6.3 Table 2/3:结果表的真实含义

轨迹级二分类表显示 AgentDoG 1.5-4B 接近闭源强模型;细粒度诊断表则显示专门监督的必要性。尤其是 GPT-5.4 的细粒度平均分 25.8,而 AgentDoG 1.5-4B 达到 55.2,说明“通用能力”不能自动转化为“安全 taxonomy 归因能力”。

6.4 样本净化公式

样本分数 sπ(z)=g^zg^guards_{\pi}(z)=\hat g_z^\top \hat g_{\mathrm{guard}} 可以理解为:某个训练样本的梯度方向是否和“更偏好正确安全判断、少偏好错误漏判”的目标方向一致。这比按 loss、困惑度或规则质量打分更直接地服务 guardrail 行为。

6.5 RL 奖励公式

环境注入攻击下的 0.25US+0.25S+0.5U0.25US + 0.25S + 0.5U 很有工程意味。它没有把安全和任务成功简单相加,而是让安全评分影响任务成功的有效性,同时仍给 utility 较高权重,避免模型通过拒绝一切来拿安全分。

7. 局限性与未来工作

论文作者明确列出两个主要局限。

第一,AgentDoG 1.5 主要处理文本化轨迹。现实 Agent 会操作 GUI、文档、音频、视频、网页视觉元素和多模态工作流。如果安全证据存在于截图、表格、图像或音频中,文本轨迹诊断会漏掉关键信号。未来需要把 trajectory-level safety diagnosis 扩展到 multimodal traces。

第二,Pre-Reply guardrail 不能阻止已经发生的外部副作用。如果 Agent 已经删除文件、发出转账请求、泄露密钥到外部 API,只在最终回复前拦截已经太晚。因此更完整的安全架构需要组合:轨迹级监控、选择性 tool-time checks、权限感知执行策略和高风险动作的人类审批。

我认为还存在三个额外风险:

  1. 合成数据依赖:DataEngine 覆盖面很广,但真实生产 Agent 风险会随工具生态快速变化;合成轨迹是否覆盖长尾风险需要持续审计。
  2. taxonomy 标签单一化:论文每条 unsafe trajectory 主要标一个 risk source、failure mode、harm;现实中可能是多风险链条,单标签可能低估复合风险。
  3. 以 judge 做 reward 的偏差:AgentDoG 作为 RL reward model 时,策略模型可能学习 reward model 的盲区;论文提到格式 reward hacking 防护,但没有完全解决语义层面的 reward hacking。

8. 实际应用场景和潜在影响

AgentDoG 1.5 的直接应用场景包括:

  • 代码 Agent 安全网关:在 Codex 类 Agent 执行 shell、修改仓库、接入 MCP 服务器前后,对轨迹进行风险诊断。
  • 企业工具调用 Agent 审计:记录跨系统工具调用轨迹,定位是否存在越权、误操作、未验证外部信息或泄密。
  • 安全 SFT 数据清洗器:对合成安全轨迹做自动过滤,减少低质量样本导致的过拒绝或错误泛化。
  • RL 安全奖励模型:在交互环境训练中提供安全分,帮助策略模型同时优化 utility 与 safety。
  • OpenClaw/Hermes 风格 runtime guardrail:在最终回复前审计完整事件流,拦截仍可被阻止的 unsafe final delivery。

潜在影响是:Agent 安全会从“内容审核”转向“执行轨迹治理”。未来企业部署 Agent 时,很可能需要同时具备输入策略、工具权限、轨迹记录、行为诊断、最终回复审计和人类审批机制。AgentDoG 1.5 给出的是其中“轨迹级诊断模型 + 数据/训练/部署管线”的参考实现。

9. 相关工作和领域背景

论文把相关工作分成三类。

第一类是 Agent safety benchmarks。R-Judge、AgentSafetyBench、SafeArena、AgentHarm、AgentDojo、AgentDyn 等工作把安全评估从内容安全扩展到工具调用、长程执行和交互式环境。但很多 benchmark 覆盖面有限,或者依赖人工/红队构造,难以支撑大规模安全训练。

第二类是 safety data and environment for agentic training。已有工作会合成 tool-use trajectories 或构造 code sandbox / LLM-simulated environments,但不一定围绕系统化风险 taxonomy,也不一定提供可用于 RL 的低成本安全反馈。

第三类是 agent guardrail。LlamaGuard、Qwen3Guard、JoySafety、PolyGuard、NemoGuard 更偏内容/对话安全;GuardAgent、ShieldAgent、SafeEvalAgent、AGrail、Safiron、ToolSafe 开始纳入工具上下文或 Agent 执行痕迹。AgentDoG 1.5 的差异在于:它把 trajectory-level diagnosis、taxonomy supervision、lightweight deployment 和 downstream alignment pipeline 统一到一个框架中。

10. 关键要点

  1. AgentDoG 1.5 的核心价值不是模型尺寸,而是把 Agent 安全问题重写为“轨迹级诊断”。
  2. 三维 taxonomy 是全文的组织中心:Risk Source 解释风险入口,Failure Mode 解释失败机制,Real-world Harm 解释现实后果。
  3. 约 1k 高价值样本能训练出强 guard model,关键在 taxonomy-guided synthesis、CoT rationale 和 influence-function purification。
  4. 4B 版本在 ATBench 上接近闭源强模型,并明显超过很多大开源模型和传统 guard models。
  5. 细粒度诊断是最能体现差异的任务:AgentDoG 1.5-4B 平均 55.2,GPT-5.4 为 25.8。
  6. Pre-Reply online guardrail 是务实方案,但不能替代 tool-time permission checks 和高风险动作审批。
  7. 未来真正可用的 Agent 安全体系应是多层架构:权限、沙箱、审计、轨迹级模型、人工审批共同工作。

参考资料