风险评估与结论

技术研究 LLM 意图分类

常见风险、缓解策略与最终实施建议

常见风险 (Risks)

1. 分类准确率风险

问题描述：意图分类系统的准确率直接影响用户体验。低准确率会导致用户请求被错误路由，造成处理失败或返回无关内容。

风险场景：

语义相似意图混淆：如”退款查询”和”申请退款”容易混淆
歧义表达：用户输入模糊，可能匹配多个意图
新意图涌现：用户表达超出预定义意图范围

量化评估：

场景	风险等级	潜在影响
意图数量 > 100	🔴 高	准确率可能下降 10-20%
语义相似意图	🟡 中	误分类率 5-15%
缺乏 None 意图	🔴 高	强制归类，用户体验差

2. 延迟与性能风险

问题描述：实时对话系统对延迟敏感。意图分类作为每个请求的必经环节，其性能直接影响整体响应时间。

延迟来源分析：

总延迟 = Embedding编码 + 向量搜索 + LLM验证(可选)
        ↓           ↓           ↓
      50-100ms    10-50ms    100-300ms

风险场景：

高并发时 Embedding API 限流
向量数据库查询瓶颈
LLM API 响应波动

3. 成本失控风险

问题描述： LLM 调用成本可能随用户量增长而快速上升。若缺乏有效控制，月度成本可能超出预算数倍。

成本估算（日活 10 万用户）：

方案	月度成本估算	成本驱动因素
纯 LLM 分类	$3,000-8,000	每次请求都调用 LLM
Embedding + LLM 缓存	$500-1,500	大部分命中缓存
本地 Embedding 模型	$100-300	仅 LLM 验证有成本

4. 数据隐私与合规风险

问题描述：用户输入可能包含敏感信息（PII、医疗数据等）。将数据发送到第三方 LLM API 可能违反合规要求。

风险场景：

用户输入包含身份证号、地址等 PII
医疗、金融等敏感领域的合规要求
跨境数据传输限制

5. 维护与演进风险

问题描述：意图分类系统需要持续维护。随着业务发展，新增意图、修改描述、调整阈值都是常见需求。

维护挑战：

新增意图需要评估对现有意图的影响
阈值调整需要全面测试
缺乏有效的监控和告警机制

缓解策略 (Mitigation)

针对准确率风险

策略一：多层验证机制

用户输入 → Embedding 初筛 → LLM 验证 → 人工确认（低置信度）

策略二：动态阈值调整

# 根据意图难度设置不同阈值
INTENT_THRESHOLDS = {
    "flight_book": 0.75,      # 常规意图
    "cancel_order": 0.85,     # 高风险操作，提高阈值
    "chitchat": 0.65,         # 低风险，降低阈值
}

# 根据历史准确率动态调整
def adjust_threshold(intent: str, recent_accuracy: float):
    if recent_accuracy < 0.85:
        return current_threshold + 0.05  # 提高阈值
    return current_threshold

策略三：置信度分层处理

置信度范围	处理策略
> 0.9	直接执行
0.7-0.9	执行但记录日志
0.5-0.7	LLM 二次验证
< 0.5	返回澄清问题

针对延迟风险

策略一：异步处理架构

[快速响应通道] 用户输入 → Embedding分类 → 直接返回（P95 < 100ms）
[精确处理通道] 低置信度请求 → LLM验证 → 后续通知

策略二：智能缓存

# 语义缓存：相似查询直接返回
def semantic_cache_lookup(query: str, threshold: float = 0.95):
    query_emb = get_embedding(query)
    cached = find_similar_cached(query_emb, threshold)
    if cached:
        return cached.intent  # 缓存命中，跳过分类
    return None

策略三：降级策略

class IntentClassifier:
    def classify(self, query: str, timeout_ms: int = 300):
        try:
            # 正常流程
            return self._full_classification(query)
        except TimeoutError:
            # 降级：仅使用 Embedding
            return self._embedding_only(query)
        except Exception:
            # 最终降级：返回 None
            return {"intent": "None_Intent", "confidence": 0}

针对成本风险

策略一：请求量控制

# 日/月度调用限额
RATE_LIMITS = {
    "embedding_calls_per_day": 100000,
    "llm_calls_per_day": 10000,
}

# 智能路由：低价值请求走低成本通道
def route_request(query: str):
    if is_trivial_query(query):  # 简单问候等
        return handle_trivial(query)  # 不调用 LLM
    return full_classification(query)

策略二：批量处理

# 批量编码降低 API 调用次数
def batch_encode(texts: List[str], batch_size: int = 100):
    for i in range(0, len(texts), batch_size):
        batch = texts[i:i+batch_size]
        embeddings = openai.embeddings.create(
            model="text-embedding-3-small",
            input=batch  # 一次 API 调用处理多条
        )

针对隐私风险

策略一：本地化部署

方案A（完全本地）：
用户输入 → 本地Embedding模型 → 本地向量库 → 本地LLM

方案B（混合）：
用户输入 → PII检测 → 脱敏 → 云端处理

策略二：PII 自动检测与脱敏

from presidio_analyzer import AnalyzerEngine
from presidio_anonymizer import AnonymizerEngine

def sanitize_input(text: str) -> str:
    analyzer = AnalyzerEngine()
    results = analyzer.analyze(text=text, language='zh')
    
    anonymizer = AnonymizerEngine()
    sanitized = anonymizer.anonymize(text=text, analyzer_results=results)
    return sanitized.text

针对维护风险

策略一：持续监控体系

# 监控指标
METRICS = {
    "classification_latency_p95": Gauge,
    "classification_accuracy": Gauge,
    "none_intent_rate": Gauge,
    "low_confidence_rate": Gauge,
}

# 告警规则
ALERTS = {
    "accuracy_drop": "准确率低于 85% 持续 1 小时",
    "latency_spike": "P95 延迟超过 500ms",
    "none_rate_high": "None 意图比例超过 20%",
}

策略二：A/B 测试框架

def ab_test_routing(user_id: str, query: str):
    if user_id % 100 < 10:  # 10% 流量走新策略
        return new_classifier.classify(query)
    return current_classifier.classify(query)

最终建议 (Final Verdict)

推荐架构

基于本研究，推荐以下技术栈：

┌─────────────────────────────────────────────────────────┐
│                    生产级意图分类架构                      │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  用户请求                                                │
│     │                                                   │
│     ▼                                                   │
│  ┌─────────────┐                                        │
│  │ PII 检测/脱敏 │ ← 隐私保护                            │
│  └─────────────┘                                        │
│     │                                                   │
│     ▼                                                   │
│  ┌─────────────┐     命中 → 返回缓存结果                 │
│  │ 语义缓存查询 │ ──────────────────────┐               │
│  └─────────────┘                        │               │
│     │ 未命中                             │               │
│     ▼                                   │               │
│  ┌─────────────┐                        │               │
│  │ Embedding   │ ← text-embedding-3-small               │
│  │ 向量检索    │                                        │
│  └─────────────┘                                        │
│     │                                                   │
│     ▼                                                   │
│  ┌─────────────┐                                        │
│  │ 阈值判断    │ → 高置信度 → 直接返回                   │
│  │ (动态阈值)  │                                        │
│  └─────────────┘                                        │
│     │ 低置信度                                          │
│     ▼                                                   │
│  ┌─────────────┐                                        │
│  │ LLM 验证    │ ← GPT-4o-mini (Function Calling)       │
│  │ (Top-5候选) │                                        │
│  └─────────────┘                                        │
│     │                                                   │
│     ▼                                                   │
│  ┌─────────────┐                                        │
│  │ 监控/日志   │ ← Prometheus + Loki                    │
│  └─────────────┘                                        │
│                                                         │
└─────────────────────────────────────────────────────────┘

实施路线图

阶段一：快速验证（1-2 周）

使用 Semantic Router 搭建原型
定义核心意图（10-20 个）
收集测试数据集（每意图 50+ 样本）
评估基准准确率

阶段二：优化迭代（2-4 周）

添加 LLM 验证层
调优阈值和提示词
实现语义缓存
建立 A/B 测试框架

阶段三：生产部署（4-8 周）

Kubernetes 容器化部署
接入监控告警体系
配置自动扩缩容
制定运维手册

关键成功因素

数据质量：意图定义清晰，示例话语覆盖全面
监控体系：实时追踪准确率、延迟、成本指标
迭代机制：定期评估和优化，而非一次性配置
降级预案：多层 fallback 保证服务可用性

参考资料

Deepchecks: AI Agent Routers Best Practices
Microsoft Presidio - PII 检测与脱敏
LangSmith Monitoring - LLM 应用监控平台