技术原理核心

技术研究 LLM 置信度评分

LLM 置信度评分技术架构深度解析与数据流程

技术分类总览

LLM 置信度评分技术可以分为四大类，每类有其独特的机制和适用场景：

graph TD
    A[LLM 置信度评分技术] --> B[置信度校准方法]
    A --> C[自评机制]
    A --> D[不确定性量化]
    A --> E[CoT 置信度估计]
    
    B --> B1[Temperature Scaling]
    B --> B2[Isotonic Regression]
    B --> B3[Ensemble Methods]
    B --> B4[Multicalibration]
    
    C --> C1[Self-Consistency]
    C --> C2[Self-Verification]
    C --> C3[Self-Reflection]
    C --> C4[Calibrated Reflection]
    
    D --> D1[Semantic Entropy]
    D --> D2[Semantic Density]
    D --> D3[Verbalized Confidence]
    D --> D4[Direct Prompting]
    
    E --> E1[Confidence-Gated CoT]
    E --> E2[Temporal Confidence STL]
    E --> E3[Reasoning-Enhanced]

一、置信度校准方法 (Confidence Calibration)

1.1 Temperature Scaling

核心机制：

Temperature Scaling 是最简单有效的校准方法，通过一个可学习的温度参数 T 来缩放模型的 logits，使输出的概率分布更平缓或更尖锐。

softmax(z/T)_i = exp(z_i/T) / Σ_j exp(z_j/T)

工作流程：

flowchart LR
    A[原始 Logits] --> B[除以 T]
    B --> C[Softmax]
    C --> D[校准后概率]
    E[验证集] --> F[优化 T 值]
    F --> B

技术细节：

方面	描述
参数数量	单一标量参数 T
优化方法	在验证集上最小化负对数似然 (NLL)
计算复杂度	O(n)，n 为验证样本数
推理延迟	几乎为零 (仅一次除法)

适用场景：

模型明显过自信（高准确率但置信度接近 1）
需要快速部署的生产环境
资源受限的边缘设备

局限性：

单一参数无法处理复杂的校准需求
对数据分布迁移敏感（domain shift）
假设所有类别的校准需求相同

1.2 Isotonic Regression

核心机制：

Isotonic Regression 拟合一个单调的分段常数函数，将原始置信度映射到校准后的置信度。使用 Pool Adjacent Violators Algorithm (PAVA) 求解。

工作流程：

flowchart TD
    A[原始置信度] --> B[排序]
    B --> C[PAVA 算法]
    C --> D[单调分段函数]
    D --> E[校准后置信度]

与 Temperature Scaling 对比：

维度	Temperature Scaling	Isotonic Regression
灵活性	低（单参数）	高（分段函数）
数据需求	少（~100 样本）	多（~1000+ 样本）
过拟合风险	低	高
计算复杂度	O(1)	O(n²)

1.3 Multicalibration

核心机制：

Multicalibration 要求在多个交叉数据分组上同时实现校准，而非仅在整体数据上校准。这确保了校准在不同子群体上的一致性。

数学定义：

对于任意分组函数 g ∈ G，要求：

E[Y | g(X), c(X)=c] ≈ c

其中 c(X) 是置信度预测函数。

应用场景：

多语言场景：确保每种语言的校准质量一致
多领域场景：医疗、法律、金融等领域的校准一致性
公平性要求：不同人口统计学群体的校准公平性

二、自评机制 (Self-Evaluation Mechanisms)

2.1 Self-Consistency (自洽性)

核心机制：

Self-Consistency 通过采样多条不同的推理路径，选择出现频率最高的答案作为最终输出。其理论基础是：正确答案更可能在多次采样中保持一致。

工作流程：

sequenceDiagram
    participant U as 用户问题
    participant L as LLM (采样 N 次)
    participant A as 答案收集
    participant V as 投票计数
    participant O as 输出
    
    U->>L: 问题 + 随机采样
    loop N 次采样
        L-->>A: 推理路径 + 答案
    end
    A->>V: 统计答案频率
    V->>O: 选择最高频答案

CISC 改进 (Confidence-Informed Self-Consistency)：

传统 Self-Consistency 的问题是计算成本高（需要大量采样）。CISC 引入了置信度加权的多数投票：

最终答案 = argmax_a Σ_i (confidence_i × I(answer_i = a))

效果对比：

方法	采样次数	准确率	相对改进
Standard CoT	1	74.2%	-
Self-Consistency	40	82.5%	+8.3%
CISC	20	83.1%	+8.9%

CISC 用一半的采样次数达到了更高的准确率。

2.2 Self-Verification (自验证)

核心机制：

Self-Verification 让模型对自己的输出进行验证，检查中间结果和最终答案的正确性。

典型流程：

生成初始答案
生成验证问题（“这个答案是否正确？”）
回答验证问题
如验证失败，重新生成答案

关键发现（Self-Verification Dilemma 研究）：

通过大规模实证分析发现：

过度使用问题：大量验证步骤是确认性的（confirmatory），而非纠正性的（corrective）
纠正率低：只有不到 15% 的验证步骤实际改变了推理结果
计算浪费：重复确认已知正确的中间结果

改进方案 - 经验驱动的验证抑制：

flowchart TD
    A[检测到验证行为] --> B{检索经验池}
    B -->|历史验证无纠正 | C[抑制验证继续推理]
    B -->|历史验证有纠正 | D[允许验证]
    D --> E[执行验证]
    E --> F[更新经验池]

2.3 Self-Reflection / Reflexion

核心机制：

训练模型遵循 “generate → critique → refine” 的推理轨迹，将自纠正能力内化到模型参数中。

训练数据构建：

生成初始回答
使用更强模型（或人工）生成批评意见
基于批评生成改进版本
形成三元组：(初始，批评，改进)

ReTrace 数据集：

20 万条自纠正样本
覆盖数学推理、代码生成、逻辑推理等领域
包含错误类型标注和纠正策略

2.4 Calibrated Reflection

三项创新：

Maximum Confidence Selection (MCS)：全面评估所有可能标签的置信度，而非仅最高置信度标签
基于反思的提示机制：引导模型在输出前进行结构化反思
距离感知校准：考虑标签间的序数关系（如 1-5 分评分）

三、不确定性量化方法 (Uncertainty Quantification)

3.1 Semantic Entropy (语义熵)

核心机制：

传统熵计算在词汇层面，但同一语义可以用不同词汇表达。Semantic Entropy 在语义层面计算不确定性。

计算步骤：

flowchart TD
    A[采样 N 个回答] --> B[语义聚类]
    B --> C[计算簇概率]
    C --> D[计算熵值]
    D --> E[不确定性分数]

公式：

H_semantic = -Σ_c p(c) log p(c)

其中 c 是语义簇，p(c) 是该簇的概率。

优势：

比词汇熵更能预测答案正确性
对重述不敏感（paraphrase invariant）

局限：

需要多次采样（计算成本高）
语义聚类需要额外的 NLI 模型

3.2 CoT-UQ (Chain-of-Thought Uncertainty Quantification)

核心机制：

从推理链的每个步骤提取关键词，评估每个关键词的重要性，然后聚合得到整体不确定性。

流程：

flowchart LR
    A[CoT 推理步骤] --> B[关键词提取]
    B --> C[重要性评分]
    C --> D[步骤不确定性]
    D --> E[加权聚合]
    E --> F[整体 UQ 分数]

效果：在 7 个数据集上 AUROC 平均提升 5.9%。

3.3 Verbalized Confidence (口头置信度)

核心机制：

直接让模型用自然语言表达置信度，如”我有 80% 的把握这个答案是正确的”。

校准方法 - Uncertainty Distillation：

使用强模型生成带置信度的回答
用这些回答微调目标模型
目标模型学会表达校准的置信度

优势：

无需多次采样
置信度解释性强
可与其他方法组合

四、Chain-of-Thought 置信度估计

4.1 Confidence-Gated CoT

核心机制：

仅在直接回答置信度低时触发 CoT 推理，避免在简单问题上浪费 token。

flowchart TD
    A[用户问题] --> B{直接回答置信度}
    B -->|高 | C[直接输出]
    B -->|低 | D[触发 CoT]
    D --> E[生成推理链]
    E --> F[输出最终答案]

效果：在保持准确率的同时，减少 35% 的 token 使用。

4.2 Temporal Confidence (STL)

核心机制：

将逐步置信度建模为时间信号，使用信号时序逻辑（Signal Temporal Logic）评估推理链的可靠性。

关键思想：

推理链中每一步都有置信度 c_t
定义时序属性：□(c_t > 0.8)（所有步骤置信度>0.8）
使用 STL 监控器验证属性满足程度

4.3 Reasoning-Enhanced Confidence

核心发现（ICML 2025）：

推理暴露置信信号：强制模型进行长链思考有助于”暴露”内部置信信号
读取模型可行性：仅通过观察推理链就能重建置信度估计
探索必要性：可靠的置信度估计需要显式探索生成空间

五、技术架构总结

graph LR
    subgraph "输入层"
        A[用户问题]
    end
    
    subgraph "置信度评估层"
        B1[直接 Prompting]
        B2[Self-Consistency]
        B3[Semantic Entropy]
        B4[CoT-UQ]
    end
    
    subgraph "校准层"
        C1[Temperature Scaling]
        C2[Isotonic Regression]
        C3[Multicalibration]
    end
    
    subgraph "决策层"
        D1{置信度 > 阈值？}
        D2[直接输出]
        D3[人工审核]
        D4[触发反思]
    end
    
    A --> B1 & B2 & B3 & B4
    B1 & B2 & B3 & B4 --> C1 & C2 & C3
    C1 & C2 & C3 --> D1
    D1 -->|是 | D2
    D1 -->|否 | D3 & D4