背景与目标

技术研究 AI Agent

nanobot 项目的研究背景、问题陈述、约束条件和验收标准

问题陈述：AI Agent 框架的复杂度困境

当前 AI Agent 领域面临一个核心矛盾：功能丰富度与代码复杂度之间的权衡。以 OpenClaw（原 Clawdbot）为代表的主流开源 AI Agent 项目，虽然功能强大，但其代码库已膨胀至 430,000+ 行 TypeScript 代码。这种”功能蔓延”带来了几个显著问题：

1. 安全审计困难

Palo Alto Networks 的安全研究人员将 OpenClaw 描述为”安全噩梦”。庞大的代码库意味着更大的攻击面，历史上曾出现过 Agent 自主购买商品或向联系人发送垃圾信息的安全事件。对于注重安全的企业用户而言，全面审计如此庞大的代码库几乎是不可能的任务。

2. 学习曲线陡峭

对于研究人员和新开发者来说，理解一个 40 万行代码的项目需要大量时间投入。这阻碍了社区的贡献和创新，也使得定制化开发变得困难重重。

3. 部署与维护成本高

庞大的依赖树和复杂的配置要求使得部署变得繁琐，资源消耗也相应增加。对于个人用户或小团队来说，这可能是一个不可忽视的门槛。

HKUDS 实验室提出的 nanobot 项目，试图回答一个根本性问题：保留核心 Agent 功能最少需要多少代码？ 通过激进的代码精简，nanobot 在约 4,000 行 Python 代码中实现了：

1. 语言选择：Python

nanobot 选择 Python 作为实现语言，这与其目标用户群体（研究人员、数据科学家）高度契合。Python 丰富的 AI/ML 生态系统也简化了 LLM 集成。

2. 依赖最小化

项目刻意避免引入重量级框架依赖，核心功能仅依赖：

3. 异步架构

采用 Python asyncio 实现非阻塞 I/O，这对于同时处理多个消息渠道至关重要。

1. 单用户定位

nanobot 定位为”个人 AI 助手”，而非企业级多租户系统。这简化了认证、权限管理等复杂功能。

2. 功能取舍

相比 OpenClaw，nanobot 明确放弃了：

功能	验收标准
LLM 调用	支持 OpenAI、Anthropic、DeepSeek 等主流 Provider
多平台接入	至少支持 Telegram、Discord、WhatsApp 三大平台
工具调用	支持基本的 function calling 和 MCP 工具
部署便捷性	pip install 后 5 分钟内可启动
代码量	核心代码控制在 5,000 行以内

本研究旨在：