背景与目标

技术研究 LLM 置信度评分

LLM 置信度评分的问题陈述、约束条件与成功指标定义

问题陈述

随着大语言模型（LLM）在医疗、法律、金融等高风险领域的广泛应用，模型的可靠性问题日益凸显。LLM 经常生成看似合理但实际错误的回复（即”幻觉”现象），这导致用户难以判断何时应该信任模型输出，何时需要人工干预。

核心挑战：

过度自信问题：LLM 倾向于对其输出表现出高度自信，即使答案是错误的。研究表明，模型的校准度（calibration）往往较差，即模型的置信度评分与实际准确率不一致。
缺乏不确定性量化：传统机器学习方法可以通过概率输出提供置信度，但 LLM 的自回归生成特性使得不确定性估计变得复杂。
多步骤推理的累积误差：在复杂任务中，LLM 需要执行多步推理（如 Chain-of-Thought），每一步的错误都会累积，最终导致结果不可靠。
应用场景的多样性：不同的应用场景（如问答、摘要、代码生成）对置信度评估的需求不同，需要针对性的技术策略。

在设计 LLM 置信度评分系统时，需要考虑以下约束：

计算效率约束：

模型可访问性约束：

实现复杂度约束：

领域适配约束：

评估置信度评分技术的成功标准：

技术指标：

指标	描述	目标值
校准误差（ECE）	Expected Calibration Error，衡量置信度与准确率的匹配程度	ECE < 0.1
AURC	Area Under Risk-Coverage curve，越低越好	尽可能低
相关性系数	置信度与真实正确性的 Pearson/Spearman 相关系数	> 0.5
推理开销	相比基线的延迟增加	< 50%
采样效率	达到相同准确率所需的采样次数减少	减少 40%+

业务指标：

本报告聚焦于以下技术领域：

不包含：