LLM Confidence Scoring - 研究摘要

技术研究 LLM 置信度评分

LLM 置信度评分技术研究 - 探索大语言模型输出置信度的评估方法、技术方案与实践验证

执行摘要

随着大语言模型（LLM）在医疗、法律、金融等高风险领域的广泛应用，模型的可靠性问题日益凸显。LLM 经常生成看似合理但实际错误的回复（即”幻觉”现象），而置信度评分技术可以帮助用户判断何时应该信任模型输出，何时需要人工干预。本研究系统性地调研了 LLM 置信度评分的技术策略、实现方法和业界实践。

本研究将置信度评分技术分为四大类：置信度校准方法（Temperature Scaling、Isotonic Regression、Multicalibration）、自评机制（Self-Consistency、Self-Verification、Reflexion）、不确定性量化方法（Semantic Entropy、CoT-UQ、Verbalized Confidence）以及Chain-of-Thought 置信度估计。研究发现，不同技术在计算成本、校准质量和实现复杂度上存在显著差异，需要根据具体应用场景进行选择。

研究建议生产环境从简单方法（Temperature Scaling + Direct Prompting）快速启动，预计投入<1 人天，ECE 可降低 30-50%；高风险场景采用 CISC + Self-Verification + External Validation 组合，错误捕获率可达 80% 以上；RAG 系统推荐使用 RAGAS 多指标 + Yes-Score 方案。报告同时提供了详细的代码实现示例和集成指南，可直接用于工程实践。

01-背景与目标 - 问题陈述、约束条件与成功指标定义
02-技术原理核心 - LLM 置信度评分技术架构深度解析与数据流程
03-方案选型对比 - 不同置信度评分方案的对比分析与选择依据
04-关键代码验证 - 核心代码实现、集成方式与关键配置
05-风险评估与结论 - 潜在风险、缓解措施与最终结论

核心发现

技术分类

LLM 置信度评分技术
├── 置信度校准方法
│   ├── Temperature Scaling（最简单，2 行代码）
│   ├── Isotonic Regression（灵活，需要大数据）
│   └── Multicalibration（多群体公平校准）
├── 自评机制
│   ├── Self-Consistency（采样多条路径，多数投票）
│   ├── CISC（置信度加权，减少 40% 采样）
│   ├── Self-Verification（自验证，存在过度使用问题）
│   └── Reflexion（内部化自纠正能力）
├── 不确定性量化
│   ├── Semantic Entropy（语义层面，校准质量最优）
│   ├── CoT-UQ（利用推理链，AUROC 提升 5.9%）
│   └── Verbalized Confidence（自然语言表达）
└── CoT 置信度估计
    ├── Confidence-Gated CoT（减少 35% token）
    ├── Temporal Confidence（信号时序逻辑）
    └── Reasoning-Enhanced（推理暴露置信信号）

方案选择指南

应用场景	推荐方案	预计投入	预期效果
生产环境快速启动	Temperature Scaling + Direct Prompting	<1 人天	ECE 降低 30-50%
高风险决策	Ensemble + Semantic Entropy	2 人周	错误捕获率>80%
复杂推理任务	CISC + CoT-UQ	1 人周	准确率提升 8-10%
RAG 系统	RAGAS 多指标 + Yes-Score	2-3 人天	幻觉检测率>70%
实时应用	Direct Prompting + Temperature Scaling	<1 人天	延迟<100ms

关键技术指标

指标	定义	目标值
ECE (Expected Calibration Error)	期望校准误差，衡量置信度与准确率的匹配程度	< 0.1
AURC	Area Under Risk-Coverage curve，越低越好	尽可能低
相关性系数	置信度与真实正确性的 Pearson/Spearman 相关系数	> 0.5
推理开销	相比基线的延迟增加	< 50%
采样效率	达到相同准确率所需的采样次数减少	减少 40%+

核心参考资料 (References)

学术论文

Liu X, et al. “Uncertainty Quantification and Confidence Calibration in Large Language Models: A Survey.” arXiv:2503.15850, 2025.
- 全面综述，提出新的 UQ 分类法
Bodhwani U, et al. “A Calibrated Reflection Approach for Enhancing Confidence Estimation in LLMs.” TrustNLP 2025.
- 提出 Calibrated Reflection 框架，包含 MCS、反思提示、距离感知校准
Taubenfeld A, et al. “Confidence Improves Self-Consistency in LLMs.” arXiv:2502.06233, 2025.
- 提出 CISC 方法，置信度加权投票，减少 40% 采样需求
Manggala P, et al. “QA-Calibration of Language Model Confidence Scores.” ICLR 2025.
- 提出 QA-calibration，确保校准在不同 QA 分组上一致
Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation. ICLR 2023.
- 语义熵方法，474+ 引用，校准质量最优
CoT-UQ: Improving Response-wise Uncertainty Quantification with Chain-of-Thought. ACL Findings 2025.
- 从推理步骤提取关键词评估不确定性，AUROC 提升 5.9%
Long Q, et al. “Self-Verification Dilemma: Experience-Driven Suppression of Overused Checking in LLM Reasoning.” arXiv:2602.03485, 2026.
- 发现自验证过度使用问题，提出经验驱动抑制方法

业界资源

DeepEval (Confident AI) - LLM 评估框架
- GitHub: https://github.com/confident-ai/deepeval
RAGAS - RAG 系统评估框架
- 文档：https://docs.ragas.io
LlamaIndex - Trustworthy RAG with Cleanlab TLM
- 文档：https://developers.llamaindex.ai/python/examples/cookbooks/cleanlab_tlm_rag/
LM-Polygraph - UQ 方法基准测试平台
- GitHub: https://github.com/deepml-ai/lm-polygraph