Logo
热心市民王先生

背景与目标

技术研究 LLM 置信度评分

LLM 置信度评分的问题陈述、约束条件与成功指标定义

问题陈述

随着大语言模型(LLM)在医疗、法律、金融等高风险领域的广泛应用,模型的可靠性问题日益凸显。LLM 经常生成看似合理但实际错误的回复(即”幻觉”现象),这导致用户难以判断何时应该信任模型输出,何时需要人工干预。

核心挑战

  1. 过度自信问题:LLM 倾向于对其输出表现出高度自信,即使答案是错误的。研究表明,模型的校准度(calibration)往往较差,即模型的置信度评分与实际准确率不一致。

  2. 缺乏不确定性量化:传统机器学习方法可以通过概率输出提供置信度,但 LLM 的自回归生成特性使得不确定性估计变得复杂。

  3. 多步骤推理的累积误差:在复杂任务中,LLM 需要执行多步推理(如 Chain-of-Thought),每一步的错误都会累积,最终导致结果不可靠。

  4. 应用场景的多样性:不同的应用场景(如问答、摘要、代码生成)对置信度评估的需求不同,需要针对性的技术策略。

约束条件

在设计 LLM 置信度评分系统时,需要考虑以下约束:

计算效率约束

  • 不能显著增加推理延迟(尤其是实时应用场景)
  • 避免需要大量采样(如 100+ 次)的方法
  • 内存开销应在可控范围内

模型可访问性约束

  • 黑盒场景:只能访问模型输出,无法获取内部 logits(如通过 API 调用商业模型)
  • 白盒场景:可以访问模型权重、attention weights、hidden states 等内部状态

实现复杂度约束

  • 不需要重新训练模型(避免高昂的训练成本)
  • 最好能通过 Prompt Engineering 实现
  • 如需微调,应使用参数高效方法(如 LoRA)

领域适配约束

  • 方法应能适配不同规模的模型(从 7B 到 70B+)
  • 应能处理不同类型的任务(分类、生成、推理)

成功指标

评估置信度评分技术的成功标准:

技术指标

指标描述目标值
校准误差(ECE)Expected Calibration Error,衡量置信度与准确率的匹配程度ECE < 0.1
AURCArea Under Risk-Coverage curve,越低越好尽可能低
相关性系数置信度与真实正确性的 Pearson/Spearman 相关系数> 0.5
推理开销相比基线的延迟增加< 50%
采样效率达到相同准确率所需的采样次数减少减少 40%+

业务指标

  • 人工干预率降低:高置信度时减少人工审核
  • 错误捕获率提升:低置信度时成功识别潜在错误
  • 用户信任度提升:提供可解释的置信度指标

研究范围

本报告聚焦于以下技术领域:

  1. 不确定性量化(UQ)方法:包括基于采样的方法和基于单次推理的方法
  2. 自信度校准技术:后处理校准、Prompt-based 校准
  3. 自评估机制:Self-Consistency、Self-Verification、Reflection
  4. 业界实践:LangChain、LlamaIndex 等框架的实现
  5. 新兴研究方向:Test-time Training、Certified Self-Consistency

不包含

  • 模型训练阶段的置信度优化(如损失函数设计)
  • 特定领域的专用评估指标(如医疗诊断的敏感度/特异度)