背景与目标
技术研究 LLM 置信度评分
LLM 置信度评分的问题陈述、约束条件与成功指标定义
问题陈述
随着大语言模型(LLM)在医疗、法律、金融等高风险领域的广泛应用,模型的可靠性问题日益凸显。LLM 经常生成看似合理但实际错误的回复(即”幻觉”现象),这导致用户难以判断何时应该信任模型输出,何时需要人工干预。
核心挑战:
-
过度自信问题:LLM 倾向于对其输出表现出高度自信,即使答案是错误的。研究表明,模型的校准度(calibration)往往较差,即模型的置信度评分与实际准确率不一致。
-
缺乏不确定性量化:传统机器学习方法可以通过概率输出提供置信度,但 LLM 的自回归生成特性使得不确定性估计变得复杂。
-
多步骤推理的累积误差:在复杂任务中,LLM 需要执行多步推理(如 Chain-of-Thought),每一步的错误都会累积,最终导致结果不可靠。
-
应用场景的多样性:不同的应用场景(如问答、摘要、代码生成)对置信度评估的需求不同,需要针对性的技术策略。
约束条件
在设计 LLM 置信度评分系统时,需要考虑以下约束:
计算效率约束:
- 不能显著增加推理延迟(尤其是实时应用场景)
- 避免需要大量采样(如 100+ 次)的方法
- 内存开销应在可控范围内
模型可访问性约束:
- 黑盒场景:只能访问模型输出,无法获取内部 logits(如通过 API 调用商业模型)
- 白盒场景:可以访问模型权重、attention weights、hidden states 等内部状态
实现复杂度约束:
- 不需要重新训练模型(避免高昂的训练成本)
- 最好能通过 Prompt Engineering 实现
- 如需微调,应使用参数高效方法(如 LoRA)
领域适配约束:
- 方法应能适配不同规模的模型(从 7B 到 70B+)
- 应能处理不同类型的任务(分类、生成、推理)
成功指标
评估置信度评分技术的成功标准:
技术指标:
| 指标 | 描述 | 目标值 |
|---|---|---|
| 校准误差(ECE) | Expected Calibration Error,衡量置信度与准确率的匹配程度 | ECE < 0.1 |
| AURC | Area Under Risk-Coverage curve,越低越好 | 尽可能低 |
| 相关性系数 | 置信度与真实正确性的 Pearson/Spearman 相关系数 | > 0.5 |
| 推理开销 | 相比基线的延迟增加 | < 50% |
| 采样效率 | 达到相同准确率所需的采样次数减少 | 减少 40%+ |
业务指标:
- 人工干预率降低:高置信度时减少人工审核
- 错误捕获率提升:低置信度时成功识别潜在错误
- 用户信任度提升:提供可解释的置信度指标
研究范围
本报告聚焦于以下技术领域:
- 不确定性量化(UQ)方法:包括基于采样的方法和基于单次推理的方法
- 自信度校准技术:后处理校准、Prompt-based 校准
- 自评估机制:Self-Consistency、Self-Verification、Reflection
- 业界实践:LangChain、LlamaIndex 等框架的实现
- 新兴研究方向:Test-time Training、Certified Self-Consistency
不包含:
- 模型训练阶段的置信度优化(如损失函数设计)
- 特定领域的专用评估指标(如医疗诊断的敏感度/特异度)