Logo
热心市民王先生

技术原理核心

技术研究 LLM 置信度评分

LLM 置信度评分技术架构深度解析与数据流程

技术分类总览

LLM 置信度评分技术可以分为四大类,每类有其独特的机制和适用场景:

graph TD
    A[LLM 置信度评分技术] --> B[置信度校准方法]
    A --> C[自评机制]
    A --> D[不确定性量化]
    A --> E[CoT 置信度估计]
    
    B --> B1[Temperature Scaling]
    B --> B2[Isotonic Regression]
    B --> B3[Ensemble Methods]
    B --> B4[Multicalibration]
    
    C --> C1[Self-Consistency]
    C --> C2[Self-Verification]
    C --> C3[Self-Reflection]
    C --> C4[Calibrated Reflection]
    
    D --> D1[Semantic Entropy]
    D --> D2[Semantic Density]
    D --> D3[Verbalized Confidence]
    D --> D4[Direct Prompting]
    
    E --> E1[Confidence-Gated CoT]
    E --> E2[Temporal Confidence STL]
    E --> E3[Reasoning-Enhanced]

一、置信度校准方法 (Confidence Calibration)

1.1 Temperature Scaling

核心机制

Temperature Scaling 是最简单有效的校准方法,通过一个可学习的温度参数 T 来缩放模型的 logits,使输出的概率分布更平缓或更尖锐。

softmax(z/T)_i = exp(z_i/T) / Σ_j exp(z_j/T)

工作流程

flowchart LR
    A[原始 Logits] --> B[除以 T]
    B --> C[Softmax]
    C --> D[校准后概率]
    E[验证集] --> F[优化 T 值]
    F --> B

技术细节

方面描述
参数数量单一标量参数 T
优化方法在验证集上最小化负对数似然 (NLL)
计算复杂度O(n),n 为验证样本数
推理延迟几乎为零 (仅一次除法)

适用场景

  • 模型明显过自信(高准确率但置信度接近 1)
  • 需要快速部署的生产环境
  • 资源受限的边缘设备

局限性

  • 单一参数无法处理复杂的校准需求
  • 对数据分布迁移敏感(domain shift)
  • 假设所有类别的校准需求相同

1.2 Isotonic Regression

核心机制

Isotonic Regression 拟合一个单调的分段常数函数,将原始置信度映射到校准后的置信度。使用 Pool Adjacent Violators Algorithm (PAVA) 求解。

工作流程

flowchart TD
    A[原始置信度] --> B[排序]
    B --> C[PAVA 算法]
    C --> D[单调分段函数]
    D --> E[校准后置信度]

与 Temperature Scaling 对比

维度Temperature ScalingIsotonic Regression
灵活性低(单参数)高(分段函数)
数据需求少(~100 样本)多(~1000+ 样本)
过拟合风险
计算复杂度O(1)O(n²)

1.3 Multicalibration

核心机制

Multicalibration 要求在多个交叉数据分组上同时实现校准,而非仅在整体数据上校准。这确保了校准在不同子群体上的一致性。

数学定义

对于任意分组函数 g ∈ G,要求:

E[Y | g(X), c(X)=c] ≈ c

其中 c(X) 是置信度预测函数。

应用场景

  • 多语言场景:确保每种语言的校准质量一致
  • 多领域场景:医疗、法律、金融等领域的校准一致性
  • 公平性要求:不同人口统计学群体的校准公平性

二、自评机制 (Self-Evaluation Mechanisms)

2.1 Self-Consistency (自洽性)

核心机制

Self-Consistency 通过采样多条不同的推理路径,选择出现频率最高的答案作为最终输出。其理论基础是:正确答案更可能在多次采样中保持一致。

工作流程

sequenceDiagram
    participant U as 用户问题
    participant L as LLM (采样 N 次)
    participant A as 答案收集
    participant V as 投票计数
    participant O as 输出
    
    U->>L: 问题 + 随机采样
    loop N 次采样
        L-->>A: 推理路径 + 答案
    end
    A->>V: 统计答案频率
    V->>O: 选择最高频答案

CISC 改进 (Confidence-Informed Self-Consistency)

传统 Self-Consistency 的问题是计算成本高(需要大量采样)。CISC 引入了置信度加权的多数投票:

最终答案 = argmax_a Σ_i (confidence_i × I(answer_i = a))

效果对比

方法采样次数准确率相对改进
Standard CoT174.2%-
Self-Consistency4082.5%+8.3%
CISC2083.1%+8.9%

CISC 用一半的采样次数达到了更高的准确率。

2.2 Self-Verification (自验证)

核心机制

Self-Verification 让模型对自己的输出进行验证,检查中间结果和最终答案的正确性。

典型流程

  1. 生成初始答案
  2. 生成验证问题(“这个答案是否正确?”)
  3. 回答验证问题
  4. 如验证失败,重新生成答案

关键发现(Self-Verification Dilemma 研究):

通过大规模实证分析发现:

  • 过度使用问题:大量验证步骤是确认性的(confirmatory),而非纠正性的(corrective)
  • 纠正率低:只有不到 15% 的验证步骤实际改变了推理结果
  • 计算浪费:重复确认已知正确的中间结果

改进方案 - 经验驱动的验证抑制

flowchart TD
    A[检测到验证行为] --> B{检索经验池}
    B -->|历史验证无纠正 | C[抑制验证继续推理]
    B -->|历史验证有纠正 | D[允许验证]
    D --> E[执行验证]
    E --> F[更新经验池]

2.3 Self-Reflection / Reflexion

核心机制

训练模型遵循 “generate → critique → refine” 的推理轨迹,将自纠正能力内化到模型参数中。

训练数据构建

  1. 生成初始回答
  2. 使用更强模型(或人工)生成批评意见
  3. 基于批评生成改进版本
  4. 形成三元组:(初始,批评,改进)

ReTrace 数据集

  • 20 万条自纠正样本
  • 覆盖数学推理、代码生成、逻辑推理等领域
  • 包含错误类型标注和纠正策略

2.4 Calibrated Reflection

三项创新

  1. Maximum Confidence Selection (MCS):全面评估所有可能标签的置信度,而非仅最高置信度标签
  2. 基于反思的提示机制:引导模型在输出前进行结构化反思
  3. 距离感知校准:考虑标签间的序数关系(如 1-5 分评分)

三、不确定性量化方法 (Uncertainty Quantification)

3.1 Semantic Entropy (语义熵)

核心机制

传统熵计算在词汇层面,但同一语义可以用不同词汇表达。Semantic Entropy 在语义层面计算不确定性。

计算步骤

flowchart TD
    A[采样 N 个回答] --> B[语义聚类]
    B --> C[计算簇概率]
    C --> D[计算熵值]
    D --> E[不确定性分数]

公式

H_semantic = -Σ_c p(c) log p(c)

其中 c 是语义簇,p(c) 是该簇的概率。

优势

  • 比词汇熵更能预测答案正确性
  • 对重述不敏感(paraphrase invariant)

局限

  • 需要多次采样(计算成本高)
  • 语义聚类需要额外的 NLI 模型

3.2 CoT-UQ (Chain-of-Thought Uncertainty Quantification)

核心机制

从推理链的每个步骤提取关键词,评估每个关键词的重要性,然后聚合得到整体不确定性。

流程

flowchart LR
    A[CoT 推理步骤] --> B[关键词提取]
    B --> C[重要性评分]
    C --> D[步骤不确定性]
    D --> E[加权聚合]
    E --> F[整体 UQ 分数]

效果:在 7 个数据集上 AUROC 平均提升 5.9%。

3.3 Verbalized Confidence (口头置信度)

核心机制

直接让模型用自然语言表达置信度,如”我有 80% 的把握这个答案是正确的”。

校准方法 - Uncertainty Distillation

  1. 使用强模型生成带置信度的回答
  2. 用这些回答微调目标模型
  3. 目标模型学会表达校准的置信度

优势

  • 无需多次采样
  • 置信度解释性强
  • 可与其他方法组合

四、Chain-of-Thought 置信度估计

4.1 Confidence-Gated CoT

核心机制

仅在直接回答置信度低时触发 CoT 推理,避免在简单问题上浪费 token。

flowchart TD
    A[用户问题] --> B{直接回答置信度}
    B -->|高 | C[直接输出]
    B -->|低 | D[触发 CoT]
    D --> E[生成推理链]
    E --> F[输出最终答案]

效果:在保持准确率的同时,减少 35% 的 token 使用。

4.2 Temporal Confidence (STL)

核心机制

将逐步置信度建模为时间信号,使用信号时序逻辑(Signal Temporal Logic)评估推理链的可靠性。

关键思想

  • 推理链中每一步都有置信度 c_t
  • 定义时序属性:□(c_t > 0.8)(所有步骤置信度>0.8)
  • 使用 STL 监控器验证属性满足程度

4.3 Reasoning-Enhanced Confidence

核心发现(ICML 2025):

  1. 推理暴露置信信号:强制模型进行长链思考有助于”暴露”内部置信信号
  2. 读取模型可行性:仅通过观察推理链就能重建置信度估计
  3. 探索必要性:可靠的置信度估计需要显式探索生成空间

五、技术架构总结

graph LR
    subgraph "输入层"
        A[用户问题]
    end
    
    subgraph "置信度评估层"
        B1[直接 Prompting]
        B2[Self-Consistency]
        B3[Semantic Entropy]
        B4[CoT-UQ]
    end
    
    subgraph "校准层"
        C1[Temperature Scaling]
        C2[Isotonic Regression]
        C3[Multicalibration]
    end
    
    subgraph "决策层"
        D1{置信度 > 阈值?}
        D2[直接输出]
        D3[人工审核]
        D4[触发反思]
    end
    
    A --> B1 & B2 & B3 & B4
    B1 & B2 & B3 & B4 --> C1 & C2 & C3
    C1 & C2 & C3 --> D1
    D1 -->|是 | D2
    D1 -->|否 | D3 & D4