技术原理核心
LLM 置信度评分技术架构深度解析与数据流程
技术分类总览
LLM 置信度评分技术可以分为四大类,每类有其独特的机制和适用场景:
graph TD
A[LLM 置信度评分技术] --> B[置信度校准方法]
A --> C[自评机制]
A --> D[不确定性量化]
A --> E[CoT 置信度估计]
B --> B1[Temperature Scaling]
B --> B2[Isotonic Regression]
B --> B3[Ensemble Methods]
B --> B4[Multicalibration]
C --> C1[Self-Consistency]
C --> C2[Self-Verification]
C --> C3[Self-Reflection]
C --> C4[Calibrated Reflection]
D --> D1[Semantic Entropy]
D --> D2[Semantic Density]
D --> D3[Verbalized Confidence]
D --> D4[Direct Prompting]
E --> E1[Confidence-Gated CoT]
E --> E2[Temporal Confidence STL]
E --> E3[Reasoning-Enhanced]
一、置信度校准方法 (Confidence Calibration)
1.1 Temperature Scaling
核心机制:
Temperature Scaling 是最简单有效的校准方法,通过一个可学习的温度参数 T 来缩放模型的 logits,使输出的概率分布更平缓或更尖锐。
softmax(z/T)_i = exp(z_i/T) / Σ_j exp(z_j/T)
工作流程:
flowchart LR
A[原始 Logits] --> B[除以 T]
B --> C[Softmax]
C --> D[校准后概率]
E[验证集] --> F[优化 T 值]
F --> B
技术细节:
| 方面 | 描述 |
|---|---|
| 参数数量 | 单一标量参数 T |
| 优化方法 | 在验证集上最小化负对数似然 (NLL) |
| 计算复杂度 | O(n),n 为验证样本数 |
| 推理延迟 | 几乎为零 (仅一次除法) |
适用场景:
- 模型明显过自信(高准确率但置信度接近 1)
- 需要快速部署的生产环境
- 资源受限的边缘设备
局限性:
- 单一参数无法处理复杂的校准需求
- 对数据分布迁移敏感(domain shift)
- 假设所有类别的校准需求相同
1.2 Isotonic Regression
核心机制:
Isotonic Regression 拟合一个单调的分段常数函数,将原始置信度映射到校准后的置信度。使用 Pool Adjacent Violators Algorithm (PAVA) 求解。
工作流程:
flowchart TD
A[原始置信度] --> B[排序]
B --> C[PAVA 算法]
C --> D[单调分段函数]
D --> E[校准后置信度]
与 Temperature Scaling 对比:
| 维度 | Temperature Scaling | Isotonic Regression |
|---|---|---|
| 灵活性 | 低(单参数) | 高(分段函数) |
| 数据需求 | 少(~100 样本) | 多(~1000+ 样本) |
| 过拟合风险 | 低 | 高 |
| 计算复杂度 | O(1) | O(n²) |
1.3 Multicalibration
核心机制:
Multicalibration 要求在多个交叉数据分组上同时实现校准,而非仅在整体数据上校准。这确保了校准在不同子群体上的一致性。
数学定义:
对于任意分组函数 g ∈ G,要求:
E[Y | g(X), c(X)=c] ≈ c
其中 c(X) 是置信度预测函数。
应用场景:
- 多语言场景:确保每种语言的校准质量一致
- 多领域场景:医疗、法律、金融等领域的校准一致性
- 公平性要求:不同人口统计学群体的校准公平性
二、自评机制 (Self-Evaluation Mechanisms)
2.1 Self-Consistency (自洽性)
核心机制:
Self-Consistency 通过采样多条不同的推理路径,选择出现频率最高的答案作为最终输出。其理论基础是:正确答案更可能在多次采样中保持一致。
工作流程:
sequenceDiagram
participant U as 用户问题
participant L as LLM (采样 N 次)
participant A as 答案收集
participant V as 投票计数
participant O as 输出
U->>L: 问题 + 随机采样
loop N 次采样
L-->>A: 推理路径 + 答案
end
A->>V: 统计答案频率
V->>O: 选择最高频答案
CISC 改进 (Confidence-Informed Self-Consistency):
传统 Self-Consistency 的问题是计算成本高(需要大量采样)。CISC 引入了置信度加权的多数投票:
最终答案 = argmax_a Σ_i (confidence_i × I(answer_i = a))
效果对比:
| 方法 | 采样次数 | 准确率 | 相对改进 |
|---|---|---|---|
| Standard CoT | 1 | 74.2% | - |
| Self-Consistency | 40 | 82.5% | +8.3% |
| CISC | 20 | 83.1% | +8.9% |
CISC 用一半的采样次数达到了更高的准确率。
2.2 Self-Verification (自验证)
核心机制:
Self-Verification 让模型对自己的输出进行验证,检查中间结果和最终答案的正确性。
典型流程:
- 生成初始答案
- 生成验证问题(“这个答案是否正确?”)
- 回答验证问题
- 如验证失败,重新生成答案
关键发现(Self-Verification Dilemma 研究):
通过大规模实证分析发现:
- 过度使用问题:大量验证步骤是确认性的(confirmatory),而非纠正性的(corrective)
- 纠正率低:只有不到 15% 的验证步骤实际改变了推理结果
- 计算浪费:重复确认已知正确的中间结果
改进方案 - 经验驱动的验证抑制:
flowchart TD
A[检测到验证行为] --> B{检索经验池}
B -->|历史验证无纠正 | C[抑制验证继续推理]
B -->|历史验证有纠正 | D[允许验证]
D --> E[执行验证]
E --> F[更新经验池]
2.3 Self-Reflection / Reflexion
核心机制:
训练模型遵循 “generate → critique → refine” 的推理轨迹,将自纠正能力内化到模型参数中。
训练数据构建:
- 生成初始回答
- 使用更强模型(或人工)生成批评意见
- 基于批评生成改进版本
- 形成三元组:(初始,批评,改进)
ReTrace 数据集:
- 20 万条自纠正样本
- 覆盖数学推理、代码生成、逻辑推理等领域
- 包含错误类型标注和纠正策略
2.4 Calibrated Reflection
三项创新:
- Maximum Confidence Selection (MCS):全面评估所有可能标签的置信度,而非仅最高置信度标签
- 基于反思的提示机制:引导模型在输出前进行结构化反思
- 距离感知校准:考虑标签间的序数关系(如 1-5 分评分)
三、不确定性量化方法 (Uncertainty Quantification)
3.1 Semantic Entropy (语义熵)
核心机制:
传统熵计算在词汇层面,但同一语义可以用不同词汇表达。Semantic Entropy 在语义层面计算不确定性。
计算步骤:
flowchart TD
A[采样 N 个回答] --> B[语义聚类]
B --> C[计算簇概率]
C --> D[计算熵值]
D --> E[不确定性分数]
公式:
H_semantic = -Σ_c p(c) log p(c)
其中 c 是语义簇,p(c) 是该簇的概率。
优势:
- 比词汇熵更能预测答案正确性
- 对重述不敏感(paraphrase invariant)
局限:
- 需要多次采样(计算成本高)
- 语义聚类需要额外的 NLI 模型
3.2 CoT-UQ (Chain-of-Thought Uncertainty Quantification)
核心机制:
从推理链的每个步骤提取关键词,评估每个关键词的重要性,然后聚合得到整体不确定性。
流程:
flowchart LR
A[CoT 推理步骤] --> B[关键词提取]
B --> C[重要性评分]
C --> D[步骤不确定性]
D --> E[加权聚合]
E --> F[整体 UQ 分数]
效果:在 7 个数据集上 AUROC 平均提升 5.9%。
3.3 Verbalized Confidence (口头置信度)
核心机制:
直接让模型用自然语言表达置信度,如”我有 80% 的把握这个答案是正确的”。
校准方法 - Uncertainty Distillation:
- 使用强模型生成带置信度的回答
- 用这些回答微调目标模型
- 目标模型学会表达校准的置信度
优势:
- 无需多次采样
- 置信度解释性强
- 可与其他方法组合
四、Chain-of-Thought 置信度估计
4.1 Confidence-Gated CoT
核心机制:
仅在直接回答置信度低时触发 CoT 推理,避免在简单问题上浪费 token。
flowchart TD
A[用户问题] --> B{直接回答置信度}
B -->|高 | C[直接输出]
B -->|低 | D[触发 CoT]
D --> E[生成推理链]
E --> F[输出最终答案]
效果:在保持准确率的同时,减少 35% 的 token 使用。
4.2 Temporal Confidence (STL)
核心机制:
将逐步置信度建模为时间信号,使用信号时序逻辑(Signal Temporal Logic)评估推理链的可靠性。
关键思想:
- 推理链中每一步都有置信度
c_t - 定义时序属性:
□(c_t > 0.8)(所有步骤置信度>0.8) - 使用 STL 监控器验证属性满足程度
4.3 Reasoning-Enhanced Confidence
核心发现(ICML 2025):
- 推理暴露置信信号:强制模型进行长链思考有助于”暴露”内部置信信号
- 读取模型可行性:仅通过观察推理链就能重建置信度估计
- 探索必要性:可靠的置信度估计需要显式探索生成空间
五、技术架构总结
graph LR
subgraph "输入层"
A[用户问题]
end
subgraph "置信度评估层"
B1[直接 Prompting]
B2[Self-Consistency]
B3[Semantic Entropy]
B4[CoT-UQ]
end
subgraph "校准层"
C1[Temperature Scaling]
C2[Isotonic Regression]
C3[Multicalibration]
end
subgraph "决策层"
D1{置信度 > 阈值?}
D2[直接输出]
D3[人工审核]
D4[触发反思]
end
A --> B1 & B2 & B3 & B4
B1 & B2 & B3 & B4 --> C1 & C2 & C3
C1 & C2 & C3 --> D1
D1 -->|是 | D2
D1 -->|否 | D3 & D4