方案选型对比

技术研究 LLM 置信度评分

不同置信度评分方案的对比分析与选择依据

一、主要方案概览

根据技术特点和应用场景，我们将置信度评分方案分为四大类：

方案类别	代表方法	核心思想	适用场景
校准方法	Temperature Scaling, Isotonic Regression, Multicalibration	后处理调整置信度输出	模型过自信、生产部署
自评方法	Self-Consistency, Self-Verification, Reflexion	模型自我评估输出质量	复杂推理、高风险决策
UQ 方法	Semantic Entropy, CoT-UQ, Verbalized Confidence	量化输出不确定性	幻觉检测、质量过滤
混合方法	CISC, Calibrated Reflection	组合多种技术优势	资源受限但需高精度

二、详细对比分析

2.1 性能对比

quadrantChart
    title "置信度方法效能对比"
    x-axis "计算成本低" --> "计算成本高"
    y-axis "校准质量低" --> "校准质量高"
    "Temperature Scaling": [0.15, 0.35]
    "Direct Prompting": [0.1, 0.3]
    "Isotonic Regression": [0.3, 0.5]
    "Verbalized Confidence": [0.2, 0.45]
    "CoT-UQ": [0.4, 0.6]
    "Self-Verification": [0.6, 0.55]
    "Self-Consistency": [0.7, 0.7]
    "CISC": [0.55, 0.75]
    "Semantic Entropy": [0.85, 0.8]
    "Ensemble Methods": [0.9, 0.85]
    "Multicalibration": [0.75, 0.65]

关键观察：

高性价比区间：Temperature Scaling、Direct Prompting 位于左下象限，成本低但校准质量有限
高性能高成本：Ensemble Methods、Semantic Entropy 位于右上象限，性能最优但计算密集
平衡选择：CISC、CoT-UQ 位于中间区域，在成本和性能间取得平衡

2.2 多维度对比表

评估维度	Temperature Scaling	Self-Consistency	Semantic Entropy	CISC	CoT-UQ
校准质量 (ECE)	0.08-0.15	0.06-0.10	0.05-0.08	0.05-0.09	0.06-0.10
推理延迟	+0ms	+500-2000ms	+1000-5000ms	+300-1000ms	+100-300ms
Token 开销	+0%	+500-2000%	+1000-5000%	+300-1000%	+50-150%
实现复杂度	低	中	高	中高	中
模型访问要求	Logits	仅输出	仅输出	仅输出 + 置信度	仅输出
黑盒兼容	❌	✅	✅	✅	✅
任务泛化性	中	高	高	高	高
分布外鲁棒性	低	中	中	中高	中

2.3 方案优缺点详解

Temperature Scaling

优点：

✅ 实现极其简单（2 行代码）
✅ 推理延迟几乎为零
✅ 仅需少量验证数据（~100 样本）
✅ 与模型架构无关

缺点：

❌ 单一参数，灵活性低
❌ 对分布迁移敏感
❌ 无法获取 logits 时不可用
❌ 假设所有类别校准需求相同

最佳适用：

生产环境快速部署
模型明显过自信
延迟敏感型应用

Self-Consistency

优点：

✅ 校准质量高（ECE 降低 40-60%）
✅ 实现简单（仅需多次采样）
✅ 黑盒兼容（无需内部访问）
✅ 同时提升准确率

缺点：

❌ 计算成本高（10-40 倍采样）
❌ 推理延迟显著增加
❌ Token 成本高昂
❌ 不适合实时场景

最佳适用：

离线批处理任务
高风险决策场景
对准确率要求极高的应用

Semantic Entropy

优点：

✅ 校准质量最优（ECE 可低至 0.05）
✅ 对重述不敏感（paraphrase invariant）
✅ 黑盒兼容
✅ 理论保证强

缺点：

❌ 计算成本极高（需要 50-100 次采样）
❌ 需要额外 NLI 模型进行语义聚类
❌ 推理延迟难以接受（秒级）
❌ 实现复杂度高

最佳适用：

离线评估和基准测试
研究实验
对可靠性要求极高的关键任务

CISC (Confidence-Informed Self-Consistency)

优点：

✅ 相比 Self-Consistency 减少 40%+ 采样需求
✅ 校准质量更高（加权投票）
✅ 黑盒兼容
✅ 同时提升准确率

缺点：

❌ 需要模型支持置信度输出
❌ 置信度本身需要校准
❌ 实现复杂度中等
❌ 计算成本仍高于基线

最佳适用：

需要 Self-Consistency 效果但资源受限
模型支持置信度 elicitation
复杂推理任务

CoT-UQ

优点：

✅ 计算开销相对较低（+50-150% token）
✅ 利用推理链内在信息
✅ 黑盒兼容
✅ AUROC 提升 5.9%

缺点：

❌ 需要模型生成 CoT
❌ 关键词提取质量影响效果
❌ 对短回答场景不适用
❌ 聚合策略需要调优

最佳适用：

复杂推理任务（数学、逻辑）
需要逐步解释的场景
资源受限但需要 UQ

三、场景导向选择指南

3.1 决策矩阵

flowchart TD
    A[开始选择] --> B{延迟要求？}
    B -->|<100ms| C[Temperature Scaling<br/>Direct Prompting]
    B -->|100-500ms| D{准确率要求？}
    B -->|>500ms| E{资源充足？}
    
    D -->|高 | F[CoT-UQ<br/>CISC]
    D -->|中 | G[Verbalized Confidence<br/>Direct Prompting]
    
    E -->|是 | H[Semantic Entropy<br/>Ensemble Methods]
    E -->|否 | I[CISC<br/>Self-Consistency<br/>采样次数=10-20]
    
    C --> J[完成选择]
    F --> J
    G --> J
    H --> J
    I --> J

3.2 典型场景推荐

应用场景	延迟要求	准确率要求	推荐方案	理由
实时客服	<200ms	中	Direct Prompting + Temperature Scaling	延迟敏感，置信度用于路由
医疗诊断辅助	<2s	极高	Ensemble + Semantic Entropy	高风险场景，不计成本
法律文档审查	<5s	高	CISC (采样=20)	平衡精度和成本
代码生成	<1s	高	CoT-UQ + Self-Verification	需要推理链，可验证
数据分析报告	<10s	中高	Self-Consistency (采样=10)	离线任务，可接受延迟
教育辅导	<500ms	中	Verbalized Confidence	需要解释性，用户友好
RAG 问答	<1s	高	RAGAS 多指标 + Yes-Score	专为 RAG 设计

四、业界框架对比

4.1 LangChain / LangSmith

置信度支持：

✅ logprobs 参数获取 token 概率
✅ 与 DeepEval 集成
✅ Callback 机制追踪
✅ 支持自定义评估器

局限性：

❌ 无内置语义熵实现
❌ Self-Consistency 需手动实现
❌ 校准方法需自行集成

适用场景：需要完整开发框架，置信度是附加需求

4.2 DeepEval (Confident AI)

置信度支持：

✅ G-Eval 指标
✅ 任务完成度评估
✅ 幻觉检测
✅ 答案相关性评分

优势：

类似 Pytest 的简洁 API
本地运行，无数据外泄
13.9k+ GitHub stars，社区活跃

适用场景：需要全面评估框架，不仅是置信度

4.3 RAGAS

置信度支持：

✅ Faithfulness 指标
✅ Answer Relevancy
✅ Answer Correctness
✅ Yes-Score 计算
✅ 相似度法置信度

优势：

专为 RAG 设计
多指标组合
与主流 RAG 框架集成

适用场景：RAG 系统置信度评估

4.4 LM-Polygraph

置信度支持：

✅ 多种 SOTA UQ 方法
✅ 统一基准测试
✅ 置信度标准化评估

优势：

研究导向
方法全面
可复现性强

适用场景：UQ 方法研究和基准测试

五、综合推荐

5.1 生产环境快速部署

推荐：Temperature Scaling + Direct Prompting
理由：
- 实现成本最低（<1 天）
- 推理延迟几乎为零
- 黑盒兼容（Direct Prompting）
- 可迭代升级

5.2 高风险决策场景

推荐：Ensemble Methods + Semantic Entropy
理由：
- 校准质量最优
- 理论保证强
- 错误捕获率最高
- 成本是次要考虑

5.3 复杂推理任务

推荐：CISC + CoT-UQ
理由：
- 利用推理链信息
- 采样效率高于 Self-Consistency
- 黑盒兼容
- 同时提升准确率

5.4 RAG 系统

推荐：RAGAS 多指标 + Yes-Score
理由：
- 专为 RAG 设计
- 考虑检索质量
- 易于集成
- 社区支持好

六、选择决策表

你的需求	首选方案	备选方案
最快部署	Temperature Scaling	Direct Prompting
最高精度	Ensemble + Semantic Entropy	CISC
最低成本	Direct Prompting	Temperature Scaling
黑盒模型	CISC / CoT-UQ	Self-Consistency
RAG 系统	RAGAS	Yes-Score + 相似度
复杂推理	CISC + CoT-UQ	Self-Consistency
实时应用	Temperature Scaling	Verbalized Confidence
离线批处理	Semantic Entropy	Ensemble Methods