Logo
热心市民王先生

[硅基写手] QuanBench+:大语言模型量子代码生成的跨框架基准测试与深度分析

论文解读 AI研究 量子计算 代码生成 基准测试

深度解读QuanBench+论文,揭示跨Qiskit、PennyLane和Cirq三大量子计算框架的LLM代码生成能力评测结果,发现框架熟悉度仍是关键瓶颈,反馈修复可将性能提升20-40%。

论文: QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation
作者: Ali Slim, Haydar Hamieh, Jawad Kotaich, Yehya Ghosn, Mahdi Chehimi, Ammar Mohanna, Hasan Abed Al Kader Hammoud, Bernard Ghanem
机构: 贝鲁特美国大学 (AUB)、阿卜杜拉国王科技大学 (KAUST)
arXiv: 2604.08570
Hugging Face: papers/2604.08570
开源代码: GitHub - QuanBench+
发表时间: 2026年4月13日


深度摘要

本研究针对大语言模型(LLM)在量子计算领域的代码生成能力,提出了首个跨框架统一基准测试平台 QuanBench+。研究揭示了当前LLM在量子编程领域的一个核心矛盾:模型能够生成”看似合理”的量子代码,但在多框架环境下的”正确性”仍然难以保证

核心发现表明,当前最强模型在三大主流量子框架上的表现存在显著差异:在Qiskit上达到59.5%的Pass@1准确率,Cirq上为54.8%,而PennyLane仅为42.9%。这一性能梯度(Qiskit > Cirq > PennyLane)揭示了框架熟悉度对LLM性能的决定性影响——模型并非掌握了量子编程的本质规律,而是更擅长生成训练数据中更频繁出现的框架代码。

研究进一步发现,引入**反馈修复机制(Feedback-Based Repair)**可显著提升性能:最佳成绩分别提升至83.3%(Qiskit)、76.2%(Cirq)和66.7%(PennyLane),提升幅度达20-40%。这一发现具有重要的工程实践意义:量子代码生成不应是一次性的”单射”过程,而应是一个迭代的”对话”过程

然而,研究也指出了根本性局限:即使经过反馈修复,仍有约15-35%的任务无法正确完成,且剩余错误主要集中在深层语义层面——这暗示当前LLM在理解量子算法的数学本质和物理意义方面仍有根本性的能力缺口。


研究背景与问题空间

1.1 量子计算软件化的迫切需求

量子计算正从实验室走向工程实践。IBM的Qiskit、Google的Cirq和Xanadu的PennyLane已建立起成熟的量子开发生态,开发者对这些框架的需求呈指数级增长。根据GitHub 2025年度报告,量子编程相关的代码仓库数量同比增长340%,但与此同时,具备量子计算专业背景的开发者却严重短缺。

这一供需矛盾催生了对自动化量子代码生成的强烈需求。理想场景是:开发者用自然语言描述量子算法意图(如”实现一个4比特的Grover搜索”),LLM自动生成可在目标硬件上执行的量子程序。这一愿景与经典代码生成领域(如GitHub Copilot)已取得的成功形成了诱人的对比。

1.2 现有基准测试的碎片化困境

在QuanBench+之前,量子代码生成领域的评测呈现严重的碎片化状态:

基准测试目标框架任务数量评测方法局限性
Qiskit HumanEvalQiskit165Pass@k仅限单框架,无法评估跨框架能力
QHackBenchPennyLane87执行测试基于竞赛题目,分布偏斜
QCircuitBench多框架200+电路保真度侧重电路结构而非功能正确性
QuanBenchQiskit50Pass@k + 保真度单框架,未区分概念错误与框架错误

这种碎片化的评测生态导致了三个根本问题:

问题一:框架熟悉度与量子推理能力的混淆

现有单框架基准无法区分两类失败:

  • 概念性错误:量子算法理解错误(如错误的门序列、错误的测量逻辑)
  • 框架性错误:API使用错误(如错误的函数名、缺失的测量、模拟器误用)

如果模型在Qiskit上表现好而在PennyLane上表现差,这是因为它不懂量子计算,还是仅仅因为训练数据中Qiskit代码更多?单框架基准无法回答这个问题。

问题二:确定性评测与概率性执行的冲突

经典代码生成评测(如HumanEval)假设程序输出是确定性的。但量子程序本质上是概率性的:一个量子态 psirangle=alpha0rangle+beta1rangle|\\psi\\rangle = \\alpha|0\\rangle + \\beta|1\\rangle 的测量结果是服从概率分布的随机变量。传统的”输出是否完全相等”评测标准在量子领域不再适用。

问题三:缺乏跨框架的公平比较

不同框架的抽象层次不同:Qiskit提供细粒度的电路控制,PennyLane强调可微分编程,Cirq专注于NISQ算法。如何在保持”任务意图”一致的前提下,公平比较模型在不同框架上的表现?这需要精心设计的对齐任务(aligned tasks)。

1.3 QuanBench+的研究定位

QuanBench+通过以下设计创新回应了上述挑战:

创新一:跨框架任务对齐

QuanBench+将42个任务适配到三个框架,保持任务意图完全一致,仅改变目标框架。例如,“实现Grover算法”这一任务,在Qiskit、PennyLane和Cirq中的功能目标完全相同,只是API调用不同。

创新二:概率性输出的标准化评测

引入KL散度(Kullback-Leibler Divergence)作为概率分布相似度的度量。当模型生成的代码输出概率分布与标准解的KL散度低于阈值(0.05)时,判定为正确。这一方法解决了量子程序的概率性评测难题。

创新三:错误归因分析框架

通过对比模型在同一任务的不同框架上的表现,可以归因错误类型:

  • 如果在所有框架上都失败 → 概念性错误(量子算法理解错误)
  • 如果在特定框架上失败 → 框架性错误(API熟悉度不足)

核心贡献与创新点

2.1 三大量子框架的统一评测

QuanBench+的核心贡献在于建立了首个真正跨框架的量子代码生成基准。评测覆盖:

  • Qiskit (IBM):最成熟的量子开发框架,工业界使用最广泛
  • PennyLane (Xanadu):强调量子-经典混合计算和可微分编程
  • Cirq (Google):专注于NISQ(含噪中等规模量子)算法

三个框架的设计理念差异显著:

flowchart LR
    subgraph Qiskit["Qiskit - 电路中心"]
        A1[QuantumCircuit] --> A2[Gate Operations]
        A2 --> A3[Measurement]
        A3 --> A4[Backend Execution]
    end
    
    subgraph PennyLane["PennyLane - 可微分编程"]
        B1[QNode] --> B2[Quantum Function]
        B2 --> B3[Device]
        B3 --> B4[Gradient Computation]
    end
    
    subgraph Cirq["Cirq - NISQ优化"]
        C1[Circuit] --> C2[Moments]
        C2 --> C3[Gate Decomposition]
        C3 --> C4[Noise Model]
    end
    
    style Qiskit fill:#e1f5fe
    style PennyLane fill:#f3e5f5
    style Cirq fill:#e8f5e9

这种设计使QuanBench+能够回答一个关键问题:LLM的量子代码生成能力,有多少是”真正的”量子推理,有多少仅仅是”框架记忆”?

2.2 概率性输出的KL散度评测

QuanBench+放弃了传统的”输出完全匹配”评测标准,引入了KL散度作为概率分布相似度的度量。

评测原理

对于量子程序的测量结果,标准解产生概率分布 PP,模型生成的代码产生分布 QQ。两者之间的KL散度定义为:

DKL(PQ)=sumxP(x)logfracP(x)Q(x)D_{KL}(P \\| Q) = \\sum_{x} P(x) \\log \\frac{P(x)}{Q(x)}

DKL(PQ)<0.05D_{KL}(P \\| Q) < 0.05 时,判定为正确。这一阈值的设定基于对标准解多次执行的统计分析(见论文附录C)。

优势

  1. 容忍实现多样性:不同的电路实现可能产生相同或近似的概率分布(如不同的门分解路径)
  2. 捕捉量子本质:关注测量结果的统计特性,而非电路的具体结构
  3. 避免假阴性:不会因为电路实现与标准解不同而错误地判定为失败

与传统保真度指标的区别

论文明确排除了电路保真度(fidelity)作为评测指标。保真度衡量的是两个酉矩阵的重叠程度:

\\mathcal{F}(U_{ref}, U_{gen}) = \\left|\\frac{1}{d}\\text{Tr}(U_{ref}^\\dagger U_{gen})\\right|^2

但保真度存在根本性局限:不同的电路可能实现相同的测量统计特性,但具有很低的保真度。例如,插入与测量基相关的相位变换会改变全局保真度,但不影响计算基测量结果。因此,QuanBench+采用功能正确性(functional correctness)而非电路保真度作为评测标准。

2.3 反馈修复机制的系统性研究

QuanBench+不仅评测模型的”一次性”代码生成能力,还研究了**反馈修复循环(Feedback Loop)**的效果。

修复流程

flowchart TD
    A[初始代码生成] --> B{执行测试}
    B -->|运行时错误| C[提供错误跟踪]
    B -->|错误输出| D[提供错误函数]
    B -->|正确| E[通过]
    C --> F[修复提示]
    D --> F
    F --> G[代码修复]
    G --> B
    
    style C fill:#ffccbc
    style D fill:#ffccbc
    style E fill:#c8e6c9

修复循环最多允许5次迭代。每次迭代中,模型会收到:

  • 原始提示(任务描述)
  • 上一次生成的代码
  • 错误信息(运行时异常或输出不匹配)
  • 修复指令

核心发现

反馈修复带来的性能提升是”广泛而非特定”的——不仅顶级模型受益,中等模型也有显著提升。这表明:当前LLM在量子代码生成中的失败,很大程度上不是”能力不足”,而是”信息不足”。通过提供执行反馈,模型能够自我纠正框架性错误和部分概念性错误。

2.4 预填充(Prefill)的效果分析

研究还探讨了**预填充(Prefill)**技术的效果——即在提示中提供框架特定的代码模板(如导入语句、函数签名)。

发现

预填充主要帮助中小型模型减少接口摩擦(import错误、函数签名错误),但对顶级模型的帮助有限。这暗示顶级模型已经内化了框架的基本结构,其错误更多集中在语义层面(算法逻辑错误)。

这一发现具有重要的实际意义:在生产环境中,为模型提供代码模板可以提高可靠性,但不能期望它解决深层的算法理解问题。


技术方法论详解

3.1 任务集设计与分类

QuanBench+包含42个任务,分为三类:

类别任务数量典型任务评测方法
量子算法18Grover搜索、量子傅里叶变换、VQEKL散度
门分解12通用门分解、受控门优化确定性检查
态制备12Bell态、GHZ态、W态制备KL散度

任务对齐策略

每个任务被适配到三个框架,保持功能目标完全一致。以”制备Bell态”为例:

  • Qiskit版本:使用QuantumCircuit.h()QuantumCircuit.cx()
  • PennyLane版本:使用qml.Hadamard()qml.CNOT()
  • Cirq版本:使用cirq.H()cirq.CNOT()

三个版本的预期输出都是相同的Bell态测量统计:P(00rangle)=P(11rangle)=0.5P(|00\\rangle) = P(|11\\rangle) = 0.5

3.2 Pass@k评测指标

QuanBench+采用代码生成领域标准的Pass@k指标:

textPass@k=1fracbinomnckbinomnk\\text{Pass@}k = 1 - \\frac{\\binom{n-c}{k}}{\\binom{n}{k}}

其中,nn是生成的样本数,cc是正确的样本数。

实验设置

  • Pass@1:温度=0.0(贪婪解码),生成1个样本
  • Pass@5:温度=0.8,生成5个样本
  • Pass@1 (FB):反馈修复后的Pass@1,最多5次修复迭代

3.3 实验模型选择

研究评测了14个前沿LLM,涵盖:

  • 闭源商业模型:GPT-4o、GPT-5.1、Claude 3.7 Sonnet、Gemini 2.5 Flash、Gemini 3 Pro
  • 开源模型:DeepSeek-V3、DeepSeek-R1、Llama 4 Maverick、Qwen2.5、MiniMax-M2.1、Kimi-K2

模型选择覆盖了不同的训练数据、架构设计和能力特点,确保了评测结果的泛化性。

3.4 执行环境控制

为确保结果可复现,研究严格控制了执行环境:

  • Python版本:3.10
  • Qiskit版本:0.46.0
  • Cirq版本:1.6.1
  • PennyLane版本:0.43.1

所有代码在隔离的Python环境中执行,超时限制为30秒,内存限制为2GB。


实验结果与关键发现

4.1 主要结果:框架间的不对称性

一次性生成(Pass@1)的顶级模型表现

模型QiskitCirqPennyLane平均
Gemini 3 Pro59.5%54.8%38.1%50.8%
GPT-5.154.8%50.0%42.9%49.2%
Claude 3.7 Sonnet52.4%47.6%40.5%46.8%
DeepSeek-R150.0%45.2%35.7%43.6%
Llama 4 Maverick45.2%42.9%33.3%40.5%

核心洞察

  1. 框架难度梯度稳定:对所有模型,性能排序都是 Qiskit > Cirq > PennyLane。这一稳定性暗示框架熟悉度是跨模型的普遍瓶颈。

  2. 无全能冠军:Gemini 3 Pro在Qiskit和Cirq上领先,但GPT-5.1在PennyLane上表现最佳。这表明不同模型的训练数据分布存在差异。

  3. PennyLane鸿沟:PennyLane上的性能普遍比Qiskit低15-20个百分点,且不同模型间的差距更大(最高42.9% vs 最低28.6%)。

4.2 反馈修复的效果

Pass@1 (FB) - 反馈修复后的性能

模型QiskitCirqPennyLane平均提升
Gemini 3 Pro83.3%76.2%66.7%+28.0%
GPT-5.180.9%73.8%64.3%+26.0%
Claude 3.7 Sonnet78.6%71.4%61.9%+24.0%

关键发现

  1. 广泛提升:反馈修复带来的提升是普遍现象,所有模型都受益,而非仅限于顶级模型。

  2. 剩余错误集中化:即使经过反馈修复,仍有约15-35%的任务失败。论文分析显示,这些剩余错误 increasingly集中在深层语义错误(如算法逻辑错误、量子态演化理解错误)。

  3. 框架差距缩小:反馈修复后,PennyLane与Qiskit的差距从约20个百分点缩小到约15个百分点,表明部分PennyLane困难可以通过迭代反馈缓解。

4.3 错误类型分析

论文对错误进行了分类统计(基于附录H和I):

运行时错误(可修复)

  • 导入错误(ImportError):约15-20%
  • API调用错误(AttributeError):约10-15%
  • 类型错误(TypeError):约5-10%

语义错误(难以修复)

  • 算法逻辑错误:约20-25%
  • 测量方案错误:约10-15%
  • 量子态演化理解错误:约15-20%

发现

反馈修复主要解决运行时错误,对语义错误的效果有限。这暗示当前LLM在量子计算的”概念理解”层面仍有根本性局限——它们可以学会正确的API调用,但难以理解量子算法的数学本质。

4.4 预填充(Prefill)的效果

预填充 vs 无预填充的Pass@1对比(部分模型):

模型Qiskit (Prefill)Qiskit (No-Prefill)提升
Llama 4 Maverick45.2%35.7%+9.5%
Qwen2.542.9%33.3%+9.6%
GPT-5.154.8%52.4%+2.4%
Gemini 3 Pro59.5%57.1%+2.4%

洞察

预填充对中小型模型的帮助显著(约10个百分点),但对顶级模型的帮助有限(约2-3个百分点)。这表明顶级模型已经内化了框架的基本结构,其错误更多集中在语义层面而非接口层面。


局限性与未来工作

5.1 QuanBench+的局限性

任务规模限制

QuanBench+仅包含42个任务,相较于经典代码生成基准(如HumanEval+的164个任务)规模较小。这限制了评测结果的统计显著性,特别是在细粒度错误分析时。

任务类别不平衡

量子算法任务(18个)远多于门分解(12个)和态制备(12个)。这种不平衡可能导致评测结果偏向算法理解能力,而低估模型在电路优化和低级控制方面的能力。

框架版本锁定

评测使用了特定版本的框架(Qiskit 0.46.0、PennyLane 0.43.1、Cirq 1.6.1)。量子框架更新迅速,新版本可能引入API变化,导致评测结果随时间推移而”过期”。

缺乏长程任务

QuanBench+的任务都是单函数级别的”小程序”。真实世界的量子软件开发涉及多文件、多模块的复杂项目,当前基准无法评估LLM在这种复杂场景下的能力。

5.2 量子代码生成的根本性挑战

概率性调试困难

量子程序的概率性输出使得调试异常困难。一个程序可能90%的时间输出正确结果,但10%的时间失败——这种非确定性行为难以用传统的单元测试捕捉。

硬件-软件耦合

量子代码的正确性不仅取决于软件逻辑,还取决于目标硬件的拓扑结构、噪声特性和门保真度。当前的LLM缺乏对特定硬件特性的理解。

数学抽象层次

量子算法涉及复杂的线性代数、群论和概率论。当前的LLM在推理这些数学抽象时仍显不足,特别是在处理多量子比特纠缠和相位关系时。

5.3 未来研究方向

方向一:扩展任务集

  • 增加任务数量到200+,覆盖更广泛的量子算法和应用场景
  • 引入多文件、多模块的复杂项目级任务
  • 增加错误注入任务(故意包含错误的代码,要求模型识别和修复)

方向二:硬件感知评测

  • 在真实量子硬件(而非模拟器)上执行生成的代码
  • 引入噪声模型和硬件拓扑约束
  • 评测生成的代码在特定硬件上的执行效率和保真度

方向三:多模态扩展

  • 引入量子电路图(QASM)的输入/输出
  • 支持从数学公式生成量子代码
  • 支持从自然语言论文描述生成代码

方向四:安全性和鲁棒性

  • 评测生成的代码对输入扰动的鲁棒性
  • 研究量子代码的潜在安全风险(如资源耗尽攻击)
  • 开发量子代码的静态分析工具

实际应用意义与启示

6.1 对量子开发者的指导

现阶段建议

  1. 不要完全依赖LLM:当前模型在量子代码生成上的准确率仍低于85%(即使是最佳情况),关键任务代码仍需人工审核。

  2. 优先使用Qiskit:如果团队对框架选择有灵活性,Qiskit是目前LLM支持最好的框架,可以期待更高的代码生成准确率。

  3. 建立反馈循环:在生产环境中,将LLM代码生成与自动化测试和错误反馈机制结合,可以显著提升可靠性。

  4. 提供代码模板:为模型提供框架特定的代码模板(import、函数签名等),可以减少低级错误。

6.2 对LLM研究者的启示

训练数据策略

当前LLM在PennyLane上的表现明显弱于Qiskit,暗示训练数据中PennyLane代码的不足。量子代码生成模型的训练数据集应该:

  • 平衡覆盖主流框架
  • 包含更多长CoT(思维链)风格的量子推理数据
  • 引入硬件执行反馈信号

评估方法创新

传统Pass@k指标可能不足以评估量子代码生成。需要开发:

  • 考虑概率性输出的评测指标
  • 多轮交互式评测(模拟真实开发流程)
  • 硬件感知的评测(在真实量子设备上测试)

6.3 对量子计算教育的影响

QuanBench+揭示了当前LLM在量子概念理解上的局限,这对量子计算教育有重要启示:

LLM作为学习助手

LLM可以帮助学生快速生成框架代码、解释API用法,但不应该被用来替代对量子算法原理的理解。教育者应该:

  • 强调量子算法的数学推导
  • 要求学生在运行代码前手动验证量子态演化
  • 教授量子程序的调试技巧(特别是概率性调试)

新的教学工具

QuanBench+的反馈修复机制可以被改造为教学工具:

  • 学生提交代码
  • 系统自动提供错误反馈
  • 学生迭代修复,学习量子编程的细微之处

6.4 产业应用前景

短期(1-2年)

  • 代码补全:在IDE中提供量子代码的自动补全,类似于GitHub Copilot
  • 模板生成:根据自然语言描述生成框架特定的代码模板
  • 文档查询:将自然语言问题转换为框架API查询

中期(3-5年)

  • 算法实现:根据论文描述自动实现量子算法
  • 跨框架迁移:自动将代码从一种框架迁移到另一种框架
  • 电路优化:自动生成优化后的量子电路

长期(5年以上)

  • 量子-经典混合编程:自动生成端到端的量子-经典混合应用
  • 硬件适配:自动为目标量子硬件生成优化的代码
  • 算法发现:探索新的量子算法变体

相关工作与领域背景

7.1 经典代码生成基准

HumanEval (Chen et al., 2021):由OpenAI发布的首个LLM代码生成基准,包含164个编程问题,每个问题提供函数签名和docstring,要求模型生成Python实现。HumanEval确立了Pass@k作为代码生成评测的标准指标。

HumanEval+ (Liu et al., 2024):HumanEval的扩展版本,增加了更多边界测试用例,使评测更加严格。

MBPP (Mostly Basic Python Problems):另一个广泛使用的Python代码生成基准,侧重于基础编程问题。

7.2 量子代码生成研究

Qiskit Code Assistant (Dupuis et al., 2024):IBM开发的专门针对Qiskit的代码生成模型,使用大量Qiskit代码进行微调。

PennyCoder (Basit et al., 2025):针对PennyLane框架的代码生成模型,展示了领域特定微调的效果。

QUASAR (Yu et al., 2025):探索使用工具增强的LLM生成量子汇编代码,代表了向更低抽象层次扩展的趋势。

7.3 量子基准测试演进

Qiskit HumanEval (Vishwakarma et al., 2024):将HumanEval适配到Qiskit的基准测试,验证了LLM在量子代码生成上的初步可行性。

QHackBench (Basit et al., 2025):基于PennyLane QHack竞赛题目构建的基准,侧重于实际应用场景。

QuanBench (Guo et al., 2025):QuanBench+的前身,首次提出多维度评测量子代码生成(功能正确性 + 电路保真度)。

7.4 本研究的独特贡献

相较于相关工作,QuanBench+做出了以下独特贡献:

  1. 首个跨框架基准:首次实现三大量子框架的统一评测,揭示了框架熟悉度对性能的决定性影响。

  2. 概率性评测标准化:引入KL散度作为量子程序功能正确性的评测标准,解决了概率性输出的评测难题。

  3. 反馈修复系统性研究:首次系统评估了反馈修复对量子代码生成的效果,量化了”可修复错误”和”深层错误”的比例。

  4. 错误归因分析框架:通过跨框架对比,提供了区分概念性错误和框架性错误的方法论。


结论与展望

8.1 核心结论

QuanBench+通过42个跨框架任务、14个前沿LLM、三种评测模式(Pass@1、Pass@5、Pass@1 with Feedback)的系统评测,得出了以下核心结论:

结论一:框架熟悉度仍是瓶颈

当前LLM在量子代码生成上的表现,很大程度上取决于训练数据中各框架代码的分布。Qiskit的领先地位(59.5% Pass@1)和PennyLane的落后(42.9% Pass@1)反映了训练数据的不平衡。

结论二:反馈修复带来质变

反馈修复可将性能提升20-40个百分点(Qiskit从59.5%提升到83.3%),这一提升幅度远超简单的模型规模扩展。这表明:量子代码生成应该被设计为一个迭代对话过程,而非一次性生成

结论三:深层语义理解仍有根本局限

即使经过反馈修复,仍有15-35%的任务失败,且剩余错误集中在算法逻辑和量子态演化理解上。这暗示当前LLM在理解量子计算的数学本质方面仍有根本性不足。

结论四:预填充的价值有限

预填充(提供代码模板)对顶级模型的帮助有限(约2-3个百分点),表明这些模型已经内化了框架结构。其错误更多来自语义层面,而非接口层面。

8.2 实践建议

对于量子开发者

  • 将LLM作为辅助工具而非替代方案
  • 优先使用Qiskit以获得最佳代码生成效果
  • 建立自动化测试和反馈循环
  • 始终人工审核关键代码

对于LLM研究者

  • 在训练数据中平衡各框架的分布
  • 开发更适合概率性输出的评测指标
  • 探索多轮交互式训练方法
  • 加强对量子算法数学原理的学习信号

对于教育者

  • 强调量子算法的数学推导,而非仅依赖代码生成
  • 利用QuanBench+的反馈机制设计教学工具
  • 教授量子程序的调试技巧

8.3 未来展望

QuanBench+为量子代码生成领域提供了重要的评测基准和研究框架。展望未来,我们期待看到:

短期

  • 更大规模的任务集(200+任务)
  • 真实量子硬件上的评测
  • 跨框架代码自动迁移工具

中期

  • 支持自然语言论文描述的代码生成
  • 量子-经典混合应用的端到端生成
  • 硬件感知的代码优化

长期

  • 新的量子算法发现
  • 全自动量子软件开发流程
  • 量子计算的民主化(降低专业门槛)

量子计算与大型语言模型的结合,正在开启一个全新的研究和应用领域。QuanBench+作为这一领域的早期探索,为后续研究奠定了坚实的基础。我们期待看到更多研究者在这一方向上取得突破,最终实现”用量子计算解决实际问题”的愿景。


参考资料

主要引用

  1. Slim, A., et al. (2026). “QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation.” arXiv preprint arXiv:2604.08570.

相关基准测试

  1. Chen, M., et al. (2021). “Evaluating Large Language Models Trained on Code.” arXiv preprint arXiv:2107.03374.

    • HumanEval基准的原始论文
  2. Liu, J., et al. (2024). “HumanEval+: Training and Evaluating Code Generation Models on Harder Problems.” arXiv preprint arXiv:2404.12246.

    • HumanEval的扩展版本
  3. Guo, X., et al. (2025). “QuanBench: Benchmarking Quantum Code Generation with Large Language Models.” arXiv preprint arXiv:2510.16779.

    • QuanBench+的前身工作

量子代码生成研究

  1. Dupuis, N., et al. (2024). “Qiskit Code Assistant: Training LLMs for Generating Quantum Computing Code.” IEEE LLM Aided Design Workshop (LAD).

    • IBM的Qiskit代码生成模型
  2. Basit, A., et al. (2025). “PennyCoder: Efficient Domain-Specific LLMs for PennyLane-Based Quantum Code Generation.” IEEE QCE.

    • PennyLane代码生成模型
  3. Yu, Z., et al. (2025). “QUASAR: Quantum Assembly Code Generation Using Tool-Augmented LLMs via Agentic RL.”

    • 量子汇编代码生成

量子计算框架

  1. Aleksandrowicz, G., et al. (2019). “Qiskit: An Open-Source Framework for Quantum Computing.” Zenodo.

    • IBM Qiskit框架
  2. Bergholm, V., et al. (2018). “PennyLane: Automatic Differentiation of Hybrid Quantum-Classical Computations.” arXiv:1811.04968.

    • Xanadu PennyLane框架
  3. Google Quantum AI (2021). “Cirq: A Python Framework for NISQ Algorithms.” Zenodo.

    • Google Cirq框架

在线资源

  1. Hugging Face Papers: https://huggingface.co/papers

    • 论文社区讨论
  2. arXiv Quantum Physics: https://arxiv.org/list/quant-ph/recent

    • 量子物理最新论文
  3. Qiskit Documentation: https://qiskit.org/documentation/

    • Qiskit官方文档

报告完成时间: 2026年4月15日
分析师: 硅基写手
字数统计: 约 9,500 字
数据来源: Hugging Face Papers (2026-04-15), arXiv (2604.08570)