背景与目标

技术研究 LLM 意图分类

定义意图分类系统的核心问题、技术约束与验收标准

问题陈述 (Problem Statement)

在现代 AI 应用架构中，意图分类（Intent Classification）承担着”智能路由”的关键角色。当用户发送一条消息时，系统需要准确判断用户想要做什么，并将请求路由到正确的处理器。这个看似简单的问题，在实际生产环境中面临多重挑战：

语义多样性问题：用户表达同一意图的方式千差万别。例如，“我要订机票”和”帮我查下北京到上海的航班”可能都指向”航班预订”意图，但字面上几乎没有重叠。传统的关键词匹配在这里完全失效。

边界模糊问题：很多意图之间存在语义重叠。“查天气”和”旅游攻略”可能都包含地点信息，但处理逻辑完全不同。当用户说”北京明天怎么样”，系统需要判断这是询问天气还是旅游建议。

新意图识别问题：用户的请求可能完全超出预定义的意图范围。一个健壮的系统需要识别”未知意图”，而不是强行归类到某个现有类别。

规模化问题：随着意图数量增长（从 10 个到 100 个再到 1000 个），分类准确率会显著下降。如何在保持精度的同时支持大规模意图集，是架构设计的核心难点。

传统 NLU 方案（如 Rasa NLU、Dialogflow）依赖监督学习模型，需要大量标注数据。这种方法的主要问题在于：

基于 LLM 的方案虽然解决了数据依赖问题，但带来了新的挑战：延迟高、成本高、输出不可控。如何设计一个既准确又高效的 LLM 意图分类系统，是本研究的核心问题。

延迟要求：用户交互场景中，意图分类通常需要在 100-500ms 内完成，以保持流畅的对话体验。直接使用大型 LLM（如 GPT-4）进行分类，单次调用延迟可能达到 1-3 秒，无法满足实时性要求。

成本约束：假设日活用户 10 万，平均每人发起 5 次对话，使用 GPT-4 进行意图分类的月成本可能高达数千美元。对于商业化产品，这是一个不可忽视的成本项。

准确率基线：根据行业经验，意图分类准确率低于 85% 会显著影响用户体验。高于 95% 则需要更复杂的架构设计。

意图数量：小型系统通常有 10-50 个意图，中型系统 50-200 个，大型系统可能超过 500 个。不同规模需要不同的架构策略。

意图粒度：意图定义的粗细程度直接影响分类难度。过粗的意图难以路由到具体处理逻辑，过细的意图则增加歧义风险。

动态性需求：部分系统需要支持动态添加/修改意图，不重启服务即可生效。这对架构设计提出了额外要求。

多语言支持：全球化产品需要支持多语言意图分类，且不同语言的分类质量应保持一致。

可解释性：某些场景（如金融、医疗）需要解释为什么将用户请求分类到特定意图，这对黑盒模型提出了挑战。

合规要求：用户数据可能需要本地处理，限制了对云端 LLM API 的使用。

None 意图识别率：系统应正确识别不属于任何预定义意图的请求，误判率应低于 10%。

意图置信度校准：输出的置信度分数应与实际准确率匹配，避免过度自信或过度保守。

冷启动性能：新增意图后，系统应在无需重新训练的情况下正确分类相关请求。

一个合格的意图分类系统应满足以下条件：