Logo
热心市民王先生

背景与目标

技术研究 人工智能 LLM

在 AI Agent 应用场景中,网页内容获取是常见需求。传统方案是整页爬取:将完整 HTML 转换为 Markdown 后全部喂给 LLM 处理。这种方式存在严重的 Token 效率问题。一个典型新闻网页可能包含 50,000+ 字符,但用户真正需要的信息可能只有 500 字(如标题、作者、发布时间、正文)。这意味着 95% 以上的 Token 是无效消耗...

问题陈述:传统整页爬取的痛点

Token 消耗爆炸

在 AI Agent 应用场景中,网页内容获取是常见需求。传统方案是”整页爬取”:将完整 HTML 转换为 Markdown 后全部喂给 LLM 处理。这种方式存在严重的 Token 效率问题。一个典型新闻网页可能包含 50,000+ 字符,但用户真正需要的信息可能只有 500 字(如标题、作者、发布时间、正文)。这意味着 95% 以上的 Token 是无效消耗

这种浪费不仅增加成本,还会:

  • 触发 LLM 的上下文窗口限制
  • 降低推理速度
  • 增加输出噪声风险

结构化数据提取困难

传统爬虫需要编写 CSS 选择器或 XPath 表达式来定位元素。这种方式面临三大挑战:

  1. 网站结构多样性:不同网站的 DOM 结构差异巨大,通用规则难以覆盖
  2. 动态内容处理:JavaScript 渲染的内容需要运行时执行,传统爬虫难以应对
  3. 维护成本高昂:网站改版后选择器失效,需要持续修复

AI Agent 的”理解鸿沟”

AI Agent 虽然具备理解自然语言的能力,但在网页浏览场景中,它面临一个核心矛盾:它能理解用户的意图,却被迫处理大量无关内容。这就像让一个只需要找电话号码的人,必须先读完整个电话簿。

约束条件

技术约束

约束类型具体限制影响程度
Token 预算单次请求通常限制在 128K 上下文窗口内
延迟要求网页抓取需在秒级完成
渲染能力需处理 JavaScript 动态渲染的页面
格式兼容需支持 Markdown、JSON、结构化输出

业务约束

  • 成本敏感:Token 消耗直接影响 API 调用成本
  • 可靠性要求:数据提取失败率需控制在 5% 以内
  • 可扩展性:需支持批量处理数千个页面

成功标准

量化指标

  1. Token 节省率:目标降低 50%-90% 的 Token 消耗
  2. 提取准确率:目标达到 95% 以上的字段提取准确率
  3. 延迟优化:端到端处理时间控制在 5 秒以内

质性标准

  1. 指令可读性:用户可用自然语言描述需求,无需学习特定 DSL
  2. 结构化输出:返回强类型数据(如 JSON Schema),便于下游处理
  3. 自愈能力:网站结构变化时,系统能自动适应而非直接失败

结论

“Instruct Read” 方案的核心价值在于:将”先抓后筛”转变为”按需抓取”。这一范式转换直接解决了 Token 效率和结构化提取两大痛点。下一章将深入分析其技术实现原理。