背景与目标

技术研究人工智能 LLM

在 AI Agent 应用场景中，网页内容获取是常见需求。传统方案是整页爬取：将完整 HTML 转换为 Markdown 后全部喂给 LLM 处理。这种方式存在严重的 Token 效率问题。一个典型新闻网页可能包含 50,000+ 字符，但用户真正需要的信息可能只有 500 字（如标题、作者、发布时间、正文）。这意味着 95% 以上的 Token 是无效消耗...

问题陈述：传统整页爬取的痛点

Token 消耗爆炸

在 AI Agent 应用场景中，网页内容获取是常见需求。传统方案是”整页爬取”：将完整 HTML 转换为 Markdown 后全部喂给 LLM 处理。这种方式存在严重的 Token 效率问题。一个典型新闻网页可能包含 50,000+ 字符，但用户真正需要的信息可能只有 500 字（如标题、作者、发布时间、正文）。这意味着 95% 以上的 Token 是无效消耗。

这种浪费不仅增加成本，还会：

触发 LLM 的上下文窗口限制
降低推理速度
增加输出噪声风险

结构化数据提取困难

传统爬虫需要编写 CSS 选择器或 XPath 表达式来定位元素。这种方式面临三大挑战：

网站结构多样性：不同网站的 DOM 结构差异巨大，通用规则难以覆盖
动态内容处理：JavaScript 渲染的内容需要运行时执行，传统爬虫难以应对
维护成本高昂：网站改版后选择器失效，需要持续修复

AI Agent 的”理解鸿沟”

AI Agent 虽然具备理解自然语言的能力，但在网页浏览场景中，它面临一个核心矛盾：它能理解用户的意图，却被迫处理大量无关内容。这就像让一个只需要找电话号码的人，必须先读完整个电话簿。

约束条件

技术约束

约束类型	具体限制	影响程度
Token 预算	单次请求通常限制在 128K 上下文窗口内	高
延迟要求	网页抓取需在秒级完成	中
渲染能力	需处理 JavaScript 动态渲染的页面	高
格式兼容	需支持 Markdown、JSON、结构化输出	中

业务约束

成本敏感：Token 消耗直接影响 API 调用成本
可靠性要求：数据提取失败率需控制在 5% 以内
可扩展性：需支持批量处理数千个页面

成功标准

量化指标

Token 节省率：目标降低 50%-90% 的 Token 消耗
提取准确率：目标达到 95% 以上的字段提取准确率
延迟优化：端到端处理时间控制在 5 秒以内

质性标准

指令可读性：用户可用自然语言描述需求，无需学习特定 DSL
结构化输出：返回强类型数据（如 JSON Schema），便于下游处理
自愈能力：网站结构变化时，系统能自动适应而非直接失败

结论

“Instruct Read” 方案的核心价值在于：将”先抓后筛”转变为”按需抓取”。这一范式转换直接解决了 Token 效率和结构化提取两大痛点。下一章将深入分析其技术实现原理。