方案选型对比
技术研究 LLM 置信度评分
不同置信度评分方案的对比分析与选择依据
一、主要方案概览
根据技术特点和应用场景,我们将置信度评分方案分为四大类:
| 方案类别 | 代表方法 | 核心思想 | 适用场景 |
|---|---|---|---|
| 校准方法 | Temperature Scaling, Isotonic Regression, Multicalibration | 后处理调整置信度输出 | 模型过自信、生产部署 |
| 自评方法 | Self-Consistency, Self-Verification, Reflexion | 模型自我评估输出质量 | 复杂推理、高风险决策 |
| UQ 方法 | Semantic Entropy, CoT-UQ, Verbalized Confidence | 量化输出不确定性 | 幻觉检测、质量过滤 |
| 混合方法 | CISC, Calibrated Reflection | 组合多种技术优势 | 资源受限但需高精度 |
二、详细对比分析
2.1 性能对比
quadrantChart
title "置信度方法效能对比"
x-axis "计算成本低" --> "计算成本高"
y-axis "校准质量低" --> "校准质量高"
"Temperature Scaling": [0.15, 0.35]
"Direct Prompting": [0.1, 0.3]
"Isotonic Regression": [0.3, 0.5]
"Verbalized Confidence": [0.2, 0.45]
"CoT-UQ": [0.4, 0.6]
"Self-Verification": [0.6, 0.55]
"Self-Consistency": [0.7, 0.7]
"CISC": [0.55, 0.75]
"Semantic Entropy": [0.85, 0.8]
"Ensemble Methods": [0.9, 0.85]
"Multicalibration": [0.75, 0.65]
关键观察:
- 高性价比区间:Temperature Scaling、Direct Prompting 位于左下象限,成本低但校准质量有限
- 高性能高成本:Ensemble Methods、Semantic Entropy 位于右上象限,性能最优但计算密集
- 平衡选择:CISC、CoT-UQ 位于中间区域,在成本和性能间取得平衡
2.2 多维度对比表
| 评估维度 | Temperature Scaling | Self-Consistency | Semantic Entropy | CISC | CoT-UQ |
|---|---|---|---|---|---|
| 校准质量 (ECE) | 0.08-0.15 | 0.06-0.10 | 0.05-0.08 | 0.05-0.09 | 0.06-0.10 |
| 推理延迟 | +0ms | +500-2000ms | +1000-5000ms | +300-1000ms | +100-300ms |
| Token 开销 | +0% | +500-2000% | +1000-5000% | +300-1000% | +50-150% |
| 实现复杂度 | 低 | 中 | 高 | 中高 | 中 |
| 模型访问要求 | Logits | 仅输出 | 仅输出 | 仅输出 + 置信度 | 仅输出 |
| 黑盒兼容 | ❌ | ✅ | ✅ | ✅ | ✅ |
| 任务泛化性 | 中 | 高 | 高 | 高 | 高 |
| 分布外鲁棒性 | 低 | 中 | 中 | 中高 | 中 |
2.3 方案优缺点详解
Temperature Scaling
优点:
- ✅ 实现极其简单(2 行代码)
- ✅ 推理延迟几乎为零
- ✅ 仅需少量验证数据(~100 样本)
- ✅ 与模型架构无关
缺点:
- ❌ 单一参数,灵活性低
- ❌ 对分布迁移敏感
- ❌ 无法获取 logits 时不可用
- ❌ 假设所有类别校准需求相同
最佳适用:
- 生产环境快速部署
- 模型明显过自信
- 延迟敏感型应用
Self-Consistency
优点:
- ✅ 校准质量高(ECE 降低 40-60%)
- ✅ 实现简单(仅需多次采样)
- ✅ 黑盒兼容(无需内部访问)
- ✅ 同时提升准确率
缺点:
- ❌ 计算成本高(10-40 倍采样)
- ❌ 推理延迟显著增加
- ❌ Token 成本高昂
- ❌ 不适合实时场景
最佳适用:
- 离线批处理任务
- 高风险决策场景
- 对准确率要求极高的应用
Semantic Entropy
优点:
- ✅ 校准质量最优(ECE 可低至 0.05)
- ✅ 对重述不敏感(paraphrase invariant)
- ✅ 黑盒兼容
- ✅ 理论保证强
缺点:
- ❌ 计算成本极高(需要 50-100 次采样)
- ❌ 需要额外 NLI 模型进行语义聚类
- ❌ 推理延迟难以接受(秒级)
- ❌ 实现复杂度高
最佳适用:
- 离线评估和基准测试
- 研究实验
- 对可靠性要求极高的关键任务
CISC (Confidence-Informed Self-Consistency)
优点:
- ✅ 相比 Self-Consistency 减少 40%+ 采样需求
- ✅ 校准质量更高(加权投票)
- ✅ 黑盒兼容
- ✅ 同时提升准确率
缺点:
- ❌ 需要模型支持置信度输出
- ❌ 置信度本身需要校准
- ❌ 实现复杂度中等
- ❌ 计算成本仍高于基线
最佳适用:
- 需要 Self-Consistency 效果但资源受限
- 模型支持置信度 elicitation
- 复杂推理任务
CoT-UQ
优点:
- ✅ 计算开销相对较低(+50-150% token)
- ✅ 利用推理链内在信息
- ✅ 黑盒兼容
- ✅ AUROC 提升 5.9%
缺点:
- ❌ 需要模型生成 CoT
- ❌ 关键词提取质量影响效果
- ❌ 对短回答场景不适用
- ❌ 聚合策略需要调优
最佳适用:
- 复杂推理任务(数学、逻辑)
- 需要逐步解释的场景
- 资源受限但需要 UQ
三、场景导向选择指南
3.1 决策矩阵
flowchart TD
A[开始选择] --> B{延迟要求?}
B -->|<100ms| C[Temperature Scaling<br/>Direct Prompting]
B -->|100-500ms| D{准确率要求?}
B -->|>500ms| E{资源充足?}
D -->|高 | F[CoT-UQ<br/>CISC]
D -->|中 | G[Verbalized Confidence<br/>Direct Prompting]
E -->|是 | H[Semantic Entropy<br/>Ensemble Methods]
E -->|否 | I[CISC<br/>Self-Consistency<br/>采样次数=10-20]
C --> J[完成选择]
F --> J
G --> J
H --> J
I --> J
3.2 典型场景推荐
| 应用场景 | 延迟要求 | 准确率要求 | 推荐方案 | 理由 |
|---|---|---|---|---|
| 实时客服 | <200ms | 中 | Direct Prompting + Temperature Scaling | 延迟敏感,置信度用于路由 |
| 医疗诊断辅助 | <2s | 极高 | Ensemble + Semantic Entropy | 高风险场景,不计成本 |
| 法律文档审查 | <5s | 高 | CISC (采样=20) | 平衡精度和成本 |
| 代码生成 | <1s | 高 | CoT-UQ + Self-Verification | 需要推理链,可验证 |
| 数据分析报告 | <10s | 中高 | Self-Consistency (采样=10) | 离线任务,可接受延迟 |
| 教育辅导 | <500ms | 中 | Verbalized Confidence | 需要解释性,用户友好 |
| RAG 问答 | <1s | 高 | RAGAS 多指标 + Yes-Score | 专为 RAG 设计 |
四、业界框架对比
4.1 LangChain / LangSmith
置信度支持:
- ✅
logprobs参数获取 token 概率 - ✅ 与 DeepEval 集成
- ✅ Callback 机制追踪
- ✅ 支持自定义评估器
局限性:
- ❌ 无内置语义熵实现
- ❌ Self-Consistency 需手动实现
- ❌ 校准方法需自行集成
适用场景:需要完整开发框架,置信度是附加需求
4.2 DeepEval (Confident AI)
置信度支持:
- ✅ G-Eval 指标
- ✅ 任务完成度评估
- ✅ 幻觉检测
- ✅ 答案相关性评分
优势:
- 类似 Pytest 的简洁 API
- 本地运行,无数据外泄
- 13.9k+ GitHub stars,社区活跃
适用场景:需要全面评估框架,不仅是置信度
4.3 RAGAS
置信度支持:
- ✅ Faithfulness 指标
- ✅ Answer Relevancy
- ✅ Answer Correctness
- ✅ Yes-Score 计算
- ✅ 相似度法置信度
优势:
- 专为 RAG 设计
- 多指标组合
- 与主流 RAG 框架集成
适用场景:RAG 系统置信度评估
4.4 LM-Polygraph
置信度支持:
- ✅ 多种 SOTA UQ 方法
- ✅ 统一基准测试
- ✅ 置信度标准化评估
优势:
- 研究导向
- 方法全面
- 可复现性强
适用场景:UQ 方法研究和基准测试
五、综合推荐
5.1 生产环境快速部署
推荐:Temperature Scaling + Direct Prompting
理由:
- 实现成本最低(<1 天)
- 推理延迟几乎为零
- 黑盒兼容(Direct Prompting)
- 可迭代升级
5.2 高风险决策场景
推荐:Ensemble Methods + Semantic Entropy
理由:
- 校准质量最优
- 理论保证强
- 错误捕获率最高
- 成本是次要考虑
5.3 复杂推理任务
推荐:CISC + CoT-UQ
理由:
- 利用推理链信息
- 采样效率高于 Self-Consistency
- 黑盒兼容
- 同时提升准确率
5.4 RAG 系统
推荐:RAGAS 多指标 + Yes-Score
理由:
- 专为 RAG 设计
- 考虑检索质量
- 易于集成
- 社区支持好
六、选择决策表
| 你的需求 | 首选方案 | 备选方案 |
|---|---|---|
| 最快部署 | Temperature Scaling | Direct Prompting |
| 最高精度 | Ensemble + Semantic Entropy | CISC |
| 最低成本 | Direct Prompting | Temperature Scaling |
| 黑盒模型 | CISC / CoT-UQ | Self-Consistency |
| RAG 系统 | RAGAS | Yes-Score + 相似度 |
| 复杂推理 | CISC + CoT-UQ | Self-Consistency |
| 实时应用 | Temperature Scaling | Verbalized Confidence |
| 离线批处理 | Semantic Entropy | Ensemble Methods |