Logo
热心市民王先生

方案选型对比

技术研究 LLM 置信度评分

不同置信度评分方案的对比分析与选择依据

一、主要方案概览

根据技术特点和应用场景,我们将置信度评分方案分为四大类:

方案类别代表方法核心思想适用场景
校准方法Temperature Scaling, Isotonic Regression, Multicalibration后处理调整置信度输出模型过自信、生产部署
自评方法Self-Consistency, Self-Verification, Reflexion模型自我评估输出质量复杂推理、高风险决策
UQ 方法Semantic Entropy, CoT-UQ, Verbalized Confidence量化输出不确定性幻觉检测、质量过滤
混合方法CISC, Calibrated Reflection组合多种技术优势资源受限但需高精度

二、详细对比分析

2.1 性能对比

quadrantChart
    title "置信度方法效能对比"
    x-axis "计算成本低" --> "计算成本高"
    y-axis "校准质量低" --> "校准质量高"
    "Temperature Scaling": [0.15, 0.35]
    "Direct Prompting": [0.1, 0.3]
    "Isotonic Regression": [0.3, 0.5]
    "Verbalized Confidence": [0.2, 0.45]
    "CoT-UQ": [0.4, 0.6]
    "Self-Verification": [0.6, 0.55]
    "Self-Consistency": [0.7, 0.7]
    "CISC": [0.55, 0.75]
    "Semantic Entropy": [0.85, 0.8]
    "Ensemble Methods": [0.9, 0.85]
    "Multicalibration": [0.75, 0.65]

关键观察

  1. 高性价比区间:Temperature Scaling、Direct Prompting 位于左下象限,成本低但校准质量有限
  2. 高性能高成本:Ensemble Methods、Semantic Entropy 位于右上象限,性能最优但计算密集
  3. 平衡选择:CISC、CoT-UQ 位于中间区域,在成本和性能间取得平衡

2.2 多维度对比表

评估维度Temperature ScalingSelf-ConsistencySemantic EntropyCISCCoT-UQ
校准质量 (ECE)0.08-0.150.06-0.100.05-0.080.05-0.090.06-0.10
推理延迟+0ms+500-2000ms+1000-5000ms+300-1000ms+100-300ms
Token 开销+0%+500-2000%+1000-5000%+300-1000%+50-150%
实现复杂度中高
模型访问要求Logits仅输出仅输出仅输出 + 置信度仅输出
黑盒兼容
任务泛化性
分布外鲁棒性中高

2.3 方案优缺点详解

Temperature Scaling

优点

  • ✅ 实现极其简单(2 行代码)
  • ✅ 推理延迟几乎为零
  • ✅ 仅需少量验证数据(~100 样本)
  • ✅ 与模型架构无关

缺点

  • ❌ 单一参数,灵活性低
  • ❌ 对分布迁移敏感
  • ❌ 无法获取 logits 时不可用
  • ❌ 假设所有类别校准需求相同

最佳适用

  • 生产环境快速部署
  • 模型明显过自信
  • 延迟敏感型应用

Self-Consistency

优点

  • ✅ 校准质量高(ECE 降低 40-60%)
  • ✅ 实现简单(仅需多次采样)
  • ✅ 黑盒兼容(无需内部访问)
  • ✅ 同时提升准确率

缺点

  • ❌ 计算成本高(10-40 倍采样)
  • ❌ 推理延迟显著增加
  • ❌ Token 成本高昂
  • ❌ 不适合实时场景

最佳适用

  • 离线批处理任务
  • 高风险决策场景
  • 对准确率要求极高的应用

Semantic Entropy

优点

  • ✅ 校准质量最优(ECE 可低至 0.05)
  • ✅ 对重述不敏感(paraphrase invariant)
  • ✅ 黑盒兼容
  • ✅ 理论保证强

缺点

  • ❌ 计算成本极高(需要 50-100 次采样)
  • ❌ 需要额外 NLI 模型进行语义聚类
  • ❌ 推理延迟难以接受(秒级)
  • ❌ 实现复杂度高

最佳适用

  • 离线评估和基准测试
  • 研究实验
  • 对可靠性要求极高的关键任务

CISC (Confidence-Informed Self-Consistency)

优点

  • ✅ 相比 Self-Consistency 减少 40%+ 采样需求
  • ✅ 校准质量更高(加权投票)
  • ✅ 黑盒兼容
  • ✅ 同时提升准确率

缺点

  • ❌ 需要模型支持置信度输出
  • ❌ 置信度本身需要校准
  • ❌ 实现复杂度中等
  • ❌ 计算成本仍高于基线

最佳适用

  • 需要 Self-Consistency 效果但资源受限
  • 模型支持置信度 elicitation
  • 复杂推理任务

CoT-UQ

优点

  • ✅ 计算开销相对较低(+50-150% token)
  • ✅ 利用推理链内在信息
  • ✅ 黑盒兼容
  • ✅ AUROC 提升 5.9%

缺点

  • ❌ 需要模型生成 CoT
  • ❌ 关键词提取质量影响效果
  • ❌ 对短回答场景不适用
  • ❌ 聚合策略需要调优

最佳适用

  • 复杂推理任务(数学、逻辑)
  • 需要逐步解释的场景
  • 资源受限但需要 UQ

三、场景导向选择指南

3.1 决策矩阵

flowchart TD
    A[开始选择] --> B{延迟要求?}
    B -->|<100ms| C[Temperature Scaling<br/>Direct Prompting]
    B -->|100-500ms| D{准确率要求?}
    B -->|>500ms| E{资源充足?}
    
    D -->|高 | F[CoT-UQ<br/>CISC]
    D -->|中 | G[Verbalized Confidence<br/>Direct Prompting]
    
    E -->|是 | H[Semantic Entropy<br/>Ensemble Methods]
    E -->|否 | I[CISC<br/>Self-Consistency<br/>采样次数=10-20]
    
    C --> J[完成选择]
    F --> J
    G --> J
    H --> J
    I --> J

3.2 典型场景推荐

应用场景延迟要求准确率要求推荐方案理由
实时客服<200msDirect Prompting + Temperature Scaling延迟敏感,置信度用于路由
医疗诊断辅助<2s极高Ensemble + Semantic Entropy高风险场景,不计成本
法律文档审查<5sCISC (采样=20)平衡精度和成本
代码生成<1sCoT-UQ + Self-Verification需要推理链,可验证
数据分析报告<10s中高Self-Consistency (采样=10)离线任务,可接受延迟
教育辅导<500msVerbalized Confidence需要解释性,用户友好
RAG 问答<1sRAGAS 多指标 + Yes-Score专为 RAG 设计

四、业界框架对比

4.1 LangChain / LangSmith

置信度支持

  • logprobs 参数获取 token 概率
  • ✅ 与 DeepEval 集成
  • ✅ Callback 机制追踪
  • ✅ 支持自定义评估器

局限性

  • ❌ 无内置语义熵实现
  • ❌ Self-Consistency 需手动实现
  • ❌ 校准方法需自行集成

适用场景:需要完整开发框架,置信度是附加需求

4.2 DeepEval (Confident AI)

置信度支持

  • ✅ G-Eval 指标
  • ✅ 任务完成度评估
  • ✅ 幻觉检测
  • ✅ 答案相关性评分

优势

  • 类似 Pytest 的简洁 API
  • 本地运行,无数据外泄
  • 13.9k+ GitHub stars,社区活跃

适用场景:需要全面评估框架,不仅是置信度

4.3 RAGAS

置信度支持

  • ✅ Faithfulness 指标
  • ✅ Answer Relevancy
  • ✅ Answer Correctness
  • ✅ Yes-Score 计算
  • ✅ 相似度法置信度

优势

  • 专为 RAG 设计
  • 多指标组合
  • 与主流 RAG 框架集成

适用场景:RAG 系统置信度评估

4.4 LM-Polygraph

置信度支持

  • ✅ 多种 SOTA UQ 方法
  • ✅ 统一基准测试
  • ✅ 置信度标准化评估

优势

  • 研究导向
  • 方法全面
  • 可复现性强

适用场景:UQ 方法研究和基准测试

五、综合推荐

5.1 生产环境快速部署

推荐:Temperature Scaling + Direct Prompting
理由:
- 实现成本最低(<1 天)
- 推理延迟几乎为零
- 黑盒兼容(Direct Prompting)
- 可迭代升级

5.2 高风险决策场景

推荐:Ensemble Methods + Semantic Entropy
理由:
- 校准质量最优
- 理论保证强
- 错误捕获率最高
- 成本是次要考虑

5.3 复杂推理任务

推荐:CISC + CoT-UQ
理由:
- 利用推理链信息
- 采样效率高于 Self-Consistency
- 黑盒兼容
- 同时提升准确率

5.4 RAG 系统

推荐:RAGAS 多指标 + Yes-Score
理由:
- 专为 RAG 设计
- 考虑检索质量
- 易于集成
- 社区支持好

六、选择决策表

你的需求首选方案备选方案
最快部署Temperature ScalingDirect Prompting
最高精度Ensemble + Semantic EntropyCISC
最低成本Direct PromptingTemperature Scaling
黑盒模型CISC / CoT-UQSelf-Consistency
RAG 系统RAGASYes-Score + 相似度
复杂推理CISC + CoT-UQSelf-Consistency
实时应用Temperature ScalingVerbalized Confidence
离线批处理Semantic EntropyEnsemble Methods