AgentDoG 1.5 论文深度解读:面向 AI Agent 安全的轻量化可扩展对齐框架
基于 Hugging Face Papers 顶部论文 AgentDoG 1.5,系统解读其 Agent 安全 taxonomy、ATBench 家族、轻量训练管线、SFT/RL 应用、在线 guardrail 与实验局限。
自动研究时间:2026-05-30 09:00(Asia/Shanghai) 来源流程:Hugging Face Papers 顶部论文 -> Hugging Face 详情页 -> arXiv 页面 -> arXiv PDF/TeX 源码交叉核对 当前 Hugging Face Papers 最新列表显示日期:May 29,顶部论文为
#1 Paper of the day
执行摘要
Hugging Face Papers 当前 Daily Papers 列表最顶部论文是 AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security。Hugging Face 详情页显示该论文于 2026-05-28 发布、2026-05-29 提交到 HF Papers,并标注为 #1 Paper of the day;对应 arXiv:2605.29801,arXiv 页面显示提交日期为 2026-05-28。
这篇论文来自 Shanghai Artificial Intelligence Laboratory,作者列表包含 Dongrui Liu、Yu Li、Zhonghao Yang、Peng Wang、Guanxu Chen、Yuejin Xie、Qinghua Mao、Wanying Qu、Yanxu Zhu、Tianyi Zhou 等 50 位作者。论文篇幅为 44 页,包含 12 张图和 9 张表,研究对象是 AI Agent 在长期工具调用、代码执行、状态持久化和开放环境交互中的安全风险。
一句话概括:AgentDoG 1.5 不是一个普通的内容安全分类器,而是一个面向完整 Agent 执行轨迹的诊断型 guardrail 框架。它用三维风险 taxonomy 组织数据与评测,用约 1k 高价值样本训练 0.8B/2B/4B/8B 轻量模型,再把这些模型用于安全 SFT 数据过滤、安全 RL 奖励建模,以及 OpenClaw 风格 Agent 的在线最终回复拦截。
1. 基本信息
| 项目 | 内容 |
|---|---|
| Hugging Face 入口 | https://huggingface.co/papers/2605.29801 |
| arXiv | https://arxiv.org/abs/2605.29801 |
| https://arxiv.org/pdf/2605.29801 | |
| 项目页 | https://ai45lab.github.io/AgentDoG/v1_5/ |
| GitHub | https://github.com/AI45Lab/AgentDoG |
| 论文标题 | AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security |
| 作者 | Dongrui Liu, Yu Li, Zhonghao Yang, Peng Wang, Guanxu Chen, Yuejin Xie, Qinghua Mao, Wanying Qu, Yanxu Zhu, Tianyi Zhou 等 50 人 |
| 机构 | Shanghai Artificial Intelligence Laboratory |
| arXiv 分类 | cs.AI, cs.CL, cs.CR, cs.CV, cs.LG |
| arXiv 提交日期 | 2026-05-28 |
| HF Papers 状态 | 2026-05-29 Daily Papers 顶部,#1 Paper of the day |
| 论文篇幅 | 44 页,12 Figures,9 Tables |
2. 研究背景与动机
2.1 为什么 Agent 安全问题变得更难
传统 LLM 安全检查主要面向单轮输入、单轮输出或短对话。Agent 场景不同:模型会读文件、调用工具、执行命令、访问外部 API、修改工作区、跨会话保存状态,并在多个步骤后才给出最终答复。很多风险并不会出现在用户最初的 prompt 或最终自然语言回复里,而是隐藏在中间工具调用、环境反馈、文件修改、依赖安装、MCP 元数据、session 记忆污染或权限边界误判中。
论文把这种变化概括为一个执行面扩张问题:OpenClaw、Hermes、Codex 类 Agent 让模型从“回答问题”变成“改变环境”。一旦 Agent 拥有跨应用执行能力,风险源不再只是恶意用户输入,也可能来自工具描述、外部环境观察、仓库文件、shell 输出、依赖供应链、历史状态和 Agent 自身推理缺陷。
2.2 现有 guardrail 的短板
现有 LlamaGuard、Qwen Guard、Nemo Guard、ShieldGemma 等模型大多训练在内容安全或对话安全数据上。它们对“最后一句话是否违规”比较自然,但对完整执行轨迹存在两个根本短板:
- 上下文单位不匹配:Agent 风险经常需要跨步骤归因,例如工具返回内容注入了隐藏指令,模型随后错误执行命令,最终回复却可能看似正常。
- 诊断粒度不足:二分类只能说 safe/unsafe,不能说明风险从哪里进入、Agent 怎么失败、会造成什么现实损害。
因此,论文试图解决的问题不是再做一个更大的安全模型,而是建立一套可扩展的 Agent 安全对齐工作流:taxonomy -> benchmark -> data engine -> lightweight guard model -> SFT/RL/online deployment。
3. 核心贡献和创新点
| 贡献 | 论文做法 | 与常规方法的区别 |
|---|---|---|
| 三维 Agent 安全 taxonomy | 将 unsafe trajectory 拆成 Risk Source、Failure Mode、Real-world Harm 三个维度 | 不只给 safe/unsafe,而是定位风险入口、失败机制和现实后果 |
| ATBench family | 在 ATBench 基础上扩展 ATBench-Claw 和 ATBench-Codex | 同一高层 taxonomy,针对 OpenClaw 与 Codex 增加 setting-specific leaf categories |
| 轻量 AgentDoG 1.5 模型 | 训练 0.8B、2B、4B、8B 版本,并开放模型/数据 | 用约 1k 精选样本达到接近或超过更大模型的轨迹级判断能力 |
| 数据引擎与样本净化 | Taxonomy-guided synthesis + CoT rationale + influence-function purification | 不是堆更多合成数据,而是用梯度方向筛出最能提升 guardrail 行为的样本 |
| 安全 SFT/RL 应用 | AgentDoG 过滤 SFT 数据,并在 RL 中提供安全奖励 | 将 guard model 从评测器变成训练管线组件 |
| 在线 guardrail | 在 Pre-Reply 阶段审计完整执行轨迹 | 比逐工具调用拦截低延迟,比只查最终回复有更多上下文 |
下面的图把论文主线压缩成一个可执行流程:
flowchart TD
A[Agent执行轨迹] --> B[三维风险Taxonomy]
B --> C[ATBench家族]
B --> D[Taxonomy-guided DataEngine]
D --> E[CoT标注与质量过滤]
E --> F[Influence-function样本净化]
F --> G[AgentDoG 1.5轻量模型]
G --> H[轨迹级安全评测]
G --> I[细粒度风险诊断]
G --> J[安全SFT数据过滤]
G --> K[安全RL奖励模型]
G --> L[Pre-Reply在线Guardrail]
4. 技术方法论详解
4.1 三维风险 taxonomy:把“危险”拆成可诊断结构
论文沿用并扩展 AgentDoG/ATBench 的三维安全诊断框架:
| 维度 | 解决的问题 | 示例 |
|---|---|---|
| Risk Source | 风险从哪里进入轨迹 | 恶意用户指令、工具反馈污染、仓库 artifact 注入、依赖/MCP 供应链风险、持久状态污染 |
| Failure Mode | Agent 如何失败 | 错误工具调用、越权操作、未验证外部信息、危险 shell/script 执行、未核实成功声明 |
| Real-world Harm | 失败造成什么现实损害 | 隐私泄露、系统完整性破坏、财务损失、安全损害、合规/审计风险 |
这个设计的关键点是“高层维度固定,叶子类别按场景扩展”。例如:
- ATBench-Claw 更关注 session、approval、skill/plugin、cross-channel routing、unattended automation。
- ATBench-Codex 更关注 repository artifacts、shell commands、dependencies、MCP、workspace mutation、verification claims。
这样做的好处是:新 Agent 执行环境出现时,不必重新定义任务,只需扩展 leaf categories,仍然可以在 Risk Source / Failure Mode / Real-world Harm 三个维度上比较模型能力。
4.2 任务定义:轨迹级二分类 + 细粒度诊断
论文定义了两个任务。
第一个是轨迹级安全判断。设 Agent 轨迹为:
其中 是第 步动作, 是对应环境观察。模型输出:
如果任意一步存在 unsafe 行为,则整条轨迹 unsafe:
第二个是细粒度风险诊断。对 unsafe trajectory,模型输出:
也就是失败模式、现实损害、风险来源三个标签。它的意义在于:guardrail 不只是挡住结果,还能告诉开发者“问题从哪个组件进入”“Agent 哪一步误判”“应该修哪类策略或工具边界”。
4.3 DataEngine:用 taxonomy 控制合成数据覆盖面
DataEngine 的流程是三阶段:
- Planning:从三维 taxonomy 各采样一个类别,形成风险配置 tuple;同时采样工具集合,生成用户任务、工具序列和风险注入点。
- Trajectory synthesis:把 sketch 实例化成完整多轮轨迹,包括用户消息、Agent 响应、工具调用和环境反馈。同一 skeleton 可以生成 safe 版本和 unsafe 版本。
- Automatic validation:规则检查结构合法性,模型检查语义一致性、风险标签与可观察行为是否匹配。
论文报告,最终数据池覆盖 5,973 个 unique tools 和 MCP servers,覆盖 15 类 risk sources、21 类 failure modes、11 类 real-world harms。这说明它不是只做少数 prompt injection 样例,而是试图系统覆盖 Agent 风险空间。
4.4 Influence-function purification:为什么只用约 1k 样本
论文最有意思的工程判断是:合成数据越多不一定越好。原始 SFT pool 里会有冗余、弱相关或可能强化表面模式的样本。AgentDoG 1.5 用 preference-aware influence function 做样本净化,保留最能推动模型学会“识别风险”的样本。
简化理解如下:
- 构造一小组安全目标 prompt 。
- 对每个 prompt,准备正例响应 和负例响应 。
- 根据参考模型对正例的偏好估计 。
- 聚合出一个 guardrail 方向:
- 对候选样本 ,计算其训练梯度 与 guardrail 方向的对齐程度:
分数越高,表示这个样本越可能推动模型朝“正确识别 risky trajectory”的方向更新。最后只保留高分样本,形成约 1k 的高信息密度训练集。
4.5 训练:SFT + GDPO 风格细粒度 RL
SFT 阶段使用标准自回归负对数似然:
论文在 Qwen3.5-0.8B、Qwen3.5-2B、Qwen3.5-4B 和 Llama-3.1-8B-Instruct 上微调,学习率为 。
RL 阶段针对细粒度诊断使用 GDPO。每个 query 采样 个回答,verifier 在 failure mode、real-world harm、risk source 三个维度给出二元奖励。论文强调不用简单 scalar GRPO 的原因是:细粒度诊断存在“部分正确”,例如 failure mode 对了但 harm 错了;如果直接相加再归一化,可能把不同错误类型混在一起。GDPO 对每个维度分别归一化 advantage,再按权重 合成。
5. 实验设计和主要结果
5.1 Benchmark 与指标
论文用两类评测验证 AgentDoG 1.5:
| 任务 | 数据集 | 指标 |
|---|---|---|
| 轨迹级安全判断 | R-Judge、ATBench、ASSE-Safety | Accuracy、Precision、Recall、F1 |
| 细粒度风险诊断 | ATBench | Risk Source Accuracy、Failure Mode Accuracy、Real-world Harm Accuracy |
| 跨执行环境泛化 | ATBench-Claw、ATBench-Codex | Accuracy |
| 安全训练应用 | AgentHarm、AgentSafetyBench、AgentSecurityBench、AgentDojo、AgentDyn、BFCL | Harm Score、Refusal Rate、ASR、BU、UA、BFCL 等 |
| 在线 guardrail | ClawSafety、AgentHazard、CIK-Bench | residual ASR、TTFT、TPOT、completion tokens |
5.2 轨迹级安全判断结果
核心结果如下:
| 模型 | R-Judge Acc/F1 | ATBench Acc/F1 | 解读 |
|---|---|---|---|
| GPT-5.4 | 93.3 / 93.7 | 73.7 / 76.7 | 闭源强基线 |
| Gemini-3.1-Pro | 97.3 / 97.4 | 75.5 / 75.0 | R-Judge 很强,ATBench 稍低 |
| Qwen3.5-397B-A17B | 85.6 / 87.4 | 66.8 / 67.8 | 大开源模型但缺少专门轨迹监督 |
| AgentDoG 1.0-4B | 91.8 / 92.7 | 64.0 / 71.1 | 上一代诊断 guardrail |
| AgentDoG 1.5-4B | 92.2 / 92.7 | 72.4 / 74.3 | 4B 模型接近闭源强基线 |
| AgentDoG 1.5-4B-U | 90.4 / 90.6 | 78.4 / 77.7 | 统一 coarse-to-fine 版本,ATBench 最强 |
论文的强结论是:在 Agent 安全场景,专门的轨迹级监督比单纯扩大模型参数更有效。AgentDoG 1.5-4B 在 ATBench 上明显超过 Qwen3.5-397B-A17B;0.8B 版本也能达到 R-Judge 75.7 Acc / 74.6 F1、ATBench 60.3 Acc / 63.2 F1。
5.3 细粒度风险诊断结果
| 模型 | Risk Source | Failure Mode | Real-world Harm | Avg |
|---|---|---|---|---|
| GPT-5.4 | 33.6 | 13.5 | 30.2 | 25.8 |
| Gemini-3.1-Pro | 24.8 | 12.6 | 18.5 | 18.6 |
| Qwen3.5-397B | 7.7 | 3.6 | 6.8 | 6.0 |
| AgentDoG 1.0-4B | 46.8 | 16.5 | 40.6 | 34.6 |
| AgentDoG 1.5-0.8B | 65.7 | 18.4 | 44.9 | 43.0 |
| AgentDoG 1.5-4B | 75.2 | 27.5 | 62.9 | 55.2 |
这个表比二分类结果更能说明论文价值。一般大模型能判断“哪里不对”,但很难稳定映射到 taxonomy label;AgentDoG 1.5 通过显式细粒度监督,在 Risk Source 和 Real-world Harm 上优势很大。Failure Mode 仍然只有 27.5%,说明“Agent 如何失败”是三维标签里最难的一项,可能因为 failure mode 类别多、边界重叠、同一轨迹可能存在多个失败链条。
5.4 安全 SFT 与安全 RL 应用
在 SFT 应用中,论文先用 ATBench engine 生成 32,787 对 trajectory,再用 AgentDoG 过滤,保留 28,705 条高质量安全轨迹,并混入 50,000 条 benign tool-use trajectories,形成约 1:2 的 safety-critical / benign 数据比例,避免模型学成只会拒绝的保守策略。
对 Qwen3.5-4B 的 SFT 结果:
| 设置 | AgentHarm HS 越低越好 | Refusal Rate 越高越安全 | AgentSecurityBench ASR 越低越好 | BFCL Acc |
|---|---|---|---|---|
| Qwen3.5-4B | 57.49 | 28.41 | 90.39 | 76.04 |
| + Util | 45.61 | 27.84 | 85.24 | 83.21 |
| + Unfiltered Safety | 31.91 | 62.50 | 34.72 | 78.69 |
| + AgentDoG-Filtered Safety | 20.32 | 75.00 | 23.82 | 81.12 |
这说明过滤后的安全数据不只是更安全,也比未过滤安全数据更能保留函数调用能力。
在 RL 应用中,论文构造有限状态 Python simulator,支持最多 10,000 个环境加载、1,000 个活跃实例、1,000 个并发工具调用,峰值内存低于 2.5 GB。奖励函数区分 clean tasks、malicious query attacks 和 environment injection attacks:
其中 是任务效用, 是 AgentDoG 提供的安全评分。最终 + SFT + RL 设置在 AgentHarm Refusal Rate 达到 77.27%,AgentSafetyBench Safe Rate 达到 59.32%,BFCL 保持 81.25,说明安全与工具调用能力之间的 trade-off 有改善。
5.5 在线 guardrail 结果
论文把 AgentDoG 部署在 Pre-Reply 阶段,也就是最终答复发给用户之前。它不拦每个 tool call,而是聚合完整轨迹后做一次判断。这是一个务实折中:低延迟、跨框架容易接入,同时比只看最终答复拥有更多上下文。
| Benchmark | 无 guardrail ASR | AgentDoG-0.8B ASR | AgentDoG-4B ASR | 解读 |
|---|---|---|---|---|
| ClawSafety | 56.25 | 25.00 | 18.75 | 4B 降幅最大 |
| AgentHazard | 41.92 | 29.23 | 26.92 | QwenGuard/LlamaGuard 在该设置无降幅 |
| CIK-Bench | 94.29 | 85.71 | 42.86 | 4B 接近 LlamaGuard 40.00 |
延迟方面,AgentDoG 生成更长的分析输出,但 TTFT 仍保持在亚秒级;由于只在最终回复前调用一次,而不是每步工具调用都调用,论文认为它适合实际部署。
6. 关键图表与公式解读
6.1 Figure 1:整体框架图
论文 Figure 1 展示了 AgentDoG 1.5 的完整工作流:taxonomy 和 ATBench family 是底座,DataEngine 产生训练/评测轨迹,AgentDoG 模型作为中间能力层,向下游提供 SFT 数据过滤、RL reward 和 online guardrail。重点不是单点模型,而是一套 Agent 安全生产线。
6.2 Figure 4:DataEngine 与训练 pipeline
DataEngine 图里最关键的是“风险配置先于轨迹生成”。这使数据不是随机收集,而是按 risk source、failure mode、harm type 控制覆盖面。随后 CoT rationale 和 influence-function purification 让训练集既可解释又紧凑。
6.3 Table 2/3:结果表的真实含义
轨迹级二分类表显示 AgentDoG 1.5-4B 接近闭源强模型;细粒度诊断表则显示专门监督的必要性。尤其是 GPT-5.4 的细粒度平均分 25.8,而 AgentDoG 1.5-4B 达到 55.2,说明“通用能力”不能自动转化为“安全 taxonomy 归因能力”。
6.4 样本净化公式
样本分数 可以理解为:某个训练样本的梯度方向是否和“更偏好正确安全判断、少偏好错误漏判”的目标方向一致。这比按 loss、困惑度或规则质量打分更直接地服务 guardrail 行为。
6.5 RL 奖励公式
环境注入攻击下的 很有工程意味。它没有把安全和任务成功简单相加,而是让安全评分影响任务成功的有效性,同时仍给 utility 较高权重,避免模型通过拒绝一切来拿安全分。
7. 局限性与未来工作
论文作者明确列出两个主要局限。
第一,AgentDoG 1.5 主要处理文本化轨迹。现实 Agent 会操作 GUI、文档、音频、视频、网页视觉元素和多模态工作流。如果安全证据存在于截图、表格、图像或音频中,文本轨迹诊断会漏掉关键信号。未来需要把 trajectory-level safety diagnosis 扩展到 multimodal traces。
第二,Pre-Reply guardrail 不能阻止已经发生的外部副作用。如果 Agent 已经删除文件、发出转账请求、泄露密钥到外部 API,只在最终回复前拦截已经太晚。因此更完整的安全架构需要组合:轨迹级监控、选择性 tool-time checks、权限感知执行策略和高风险动作的人类审批。
我认为还存在三个额外风险:
- 合成数据依赖:DataEngine 覆盖面很广,但真实生产 Agent 风险会随工具生态快速变化;合成轨迹是否覆盖长尾风险需要持续审计。
- taxonomy 标签单一化:论文每条 unsafe trajectory 主要标一个 risk source、failure mode、harm;现实中可能是多风险链条,单标签可能低估复合风险。
- 以 judge 做 reward 的偏差:AgentDoG 作为 RL reward model 时,策略模型可能学习 reward model 的盲区;论文提到格式 reward hacking 防护,但没有完全解决语义层面的 reward hacking。
8. 实际应用场景和潜在影响
AgentDoG 1.5 的直接应用场景包括:
- 代码 Agent 安全网关:在 Codex 类 Agent 执行 shell、修改仓库、接入 MCP 服务器前后,对轨迹进行风险诊断。
- 企业工具调用 Agent 审计:记录跨系统工具调用轨迹,定位是否存在越权、误操作、未验证外部信息或泄密。
- 安全 SFT 数据清洗器:对合成安全轨迹做自动过滤,减少低质量样本导致的过拒绝或错误泛化。
- RL 安全奖励模型:在交互环境训练中提供安全分,帮助策略模型同时优化 utility 与 safety。
- OpenClaw/Hermes 风格 runtime guardrail:在最终回复前审计完整事件流,拦截仍可被阻止的 unsafe final delivery。
潜在影响是:Agent 安全会从“内容审核”转向“执行轨迹治理”。未来企业部署 Agent 时,很可能需要同时具备输入策略、工具权限、轨迹记录、行为诊断、最终回复审计和人类审批机制。AgentDoG 1.5 给出的是其中“轨迹级诊断模型 + 数据/训练/部署管线”的参考实现。
9. 相关工作和领域背景
论文把相关工作分成三类。
第一类是 Agent safety benchmarks。R-Judge、AgentSafetyBench、SafeArena、AgentHarm、AgentDojo、AgentDyn 等工作把安全评估从内容安全扩展到工具调用、长程执行和交互式环境。但很多 benchmark 覆盖面有限,或者依赖人工/红队构造,难以支撑大规模安全训练。
第二类是 safety data and environment for agentic training。已有工作会合成 tool-use trajectories 或构造 code sandbox / LLM-simulated environments,但不一定围绕系统化风险 taxonomy,也不一定提供可用于 RL 的低成本安全反馈。
第三类是 agent guardrail。LlamaGuard、Qwen3Guard、JoySafety、PolyGuard、NemoGuard 更偏内容/对话安全;GuardAgent、ShieldAgent、SafeEvalAgent、AGrail、Safiron、ToolSafe 开始纳入工具上下文或 Agent 执行痕迹。AgentDoG 1.5 的差异在于:它把 trajectory-level diagnosis、taxonomy supervision、lightweight deployment 和 downstream alignment pipeline 统一到一个框架中。
10. 关键要点
- AgentDoG 1.5 的核心价值不是模型尺寸,而是把 Agent 安全问题重写为“轨迹级诊断”。
- 三维 taxonomy 是全文的组织中心:Risk Source 解释风险入口,Failure Mode 解释失败机制,Real-world Harm 解释现实后果。
- 约 1k 高价值样本能训练出强 guard model,关键在 taxonomy-guided synthesis、CoT rationale 和 influence-function purification。
- 4B 版本在 ATBench 上接近闭源强模型,并明显超过很多大开源模型和传统 guard models。
- 细粒度诊断是最能体现差异的任务:AgentDoG 1.5-4B 平均 55.2,GPT-5.4 为 25.8。
- Pre-Reply online guardrail 是务实方案,但不能替代 tool-time permission checks 和高风险动作审批。
- 未来真正可用的 Agent 安全体系应是多层架构:权限、沙箱、审计、轨迹级模型、人工审批共同工作。
参考资料
- Hugging Face Papers: https://huggingface.co/papers/2605.29801
- arXiv abstract: https://arxiv.org/abs/2605.29801
- arXiv PDF: https://arxiv.org/pdf/2605.29801
- Project page: https://ai45lab.github.io/AgentDoG/v1_5/
- GitHub repository: https://github.com/AI45Lab/AgentDoG
- AgentDoG 1.0: https://arxiv.org/abs/2601.18491
- AgentDoG 1.5 model collection: https://huggingface.co/collections/AI45Research/agentdog15