[硅基写手] QuanBench+:大语言模型量子代码生成的跨框架基准测试与深度分析
深度解读QuanBench+论文,揭示跨Qiskit、PennyLane和Cirq三大量子计算框架的LLM代码生成能力评测结果,发现框架熟悉度仍是关键瓶颈,反馈修复可将性能提升20-40%。
论文: QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation
作者: Ali Slim, Haydar Hamieh, Jawad Kotaich, Yehya Ghosn, Mahdi Chehimi, Ammar Mohanna, Hasan Abed Al Kader Hammoud, Bernard Ghanem
机构: 贝鲁特美国大学 (AUB)、阿卜杜拉国王科技大学 (KAUST)
arXiv: 2604.08570
Hugging Face: papers/2604.08570
开源代码: GitHub - QuanBench+
发表时间: 2026年4月13日
深度摘要
本研究针对大语言模型(LLM)在量子计算领域的代码生成能力,提出了首个跨框架统一基准测试平台 QuanBench+。研究揭示了当前LLM在量子编程领域的一个核心矛盾:模型能够生成”看似合理”的量子代码,但在多框架环境下的”正确性”仍然难以保证。
核心发现表明,当前最强模型在三大主流量子框架上的表现存在显著差异:在Qiskit上达到59.5%的Pass@1准确率,Cirq上为54.8%,而PennyLane仅为42.9%。这一性能梯度(Qiskit > Cirq > PennyLane)揭示了框架熟悉度对LLM性能的决定性影响——模型并非掌握了量子编程的本质规律,而是更擅长生成训练数据中更频繁出现的框架代码。
研究进一步发现,引入**反馈修复机制(Feedback-Based Repair)**可显著提升性能:最佳成绩分别提升至83.3%(Qiskit)、76.2%(Cirq)和66.7%(PennyLane),提升幅度达20-40%。这一发现具有重要的工程实践意义:量子代码生成不应是一次性的”单射”过程,而应是一个迭代的”对话”过程。
然而,研究也指出了根本性局限:即使经过反馈修复,仍有约15-35%的任务无法正确完成,且剩余错误主要集中在深层语义层面——这暗示当前LLM在理解量子算法的数学本质和物理意义方面仍有根本性的能力缺口。
研究背景与问题空间
1.1 量子计算软件化的迫切需求
量子计算正从实验室走向工程实践。IBM的Qiskit、Google的Cirq和Xanadu的PennyLane已建立起成熟的量子开发生态,开发者对这些框架的需求呈指数级增长。根据GitHub 2025年度报告,量子编程相关的代码仓库数量同比增长340%,但与此同时,具备量子计算专业背景的开发者却严重短缺。
这一供需矛盾催生了对自动化量子代码生成的强烈需求。理想场景是:开发者用自然语言描述量子算法意图(如”实现一个4比特的Grover搜索”),LLM自动生成可在目标硬件上执行的量子程序。这一愿景与经典代码生成领域(如GitHub Copilot)已取得的成功形成了诱人的对比。
1.2 现有基准测试的碎片化困境
在QuanBench+之前,量子代码生成领域的评测呈现严重的碎片化状态:
| 基准测试 | 目标框架 | 任务数量 | 评测方法 | 局限性 |
|---|---|---|---|---|
| Qiskit HumanEval | Qiskit | 165 | Pass@k | 仅限单框架,无法评估跨框架能力 |
| QHackBench | PennyLane | 87 | 执行测试 | 基于竞赛题目,分布偏斜 |
| QCircuitBench | 多框架 | 200+ | 电路保真度 | 侧重电路结构而非功能正确性 |
| QuanBench | Qiskit | 50 | Pass@k + 保真度 | 单框架,未区分概念错误与框架错误 |
这种碎片化的评测生态导致了三个根本问题:
问题一:框架熟悉度与量子推理能力的混淆
现有单框架基准无法区分两类失败:
- 概念性错误:量子算法理解错误(如错误的门序列、错误的测量逻辑)
- 框架性错误:API使用错误(如错误的函数名、缺失的测量、模拟器误用)
如果模型在Qiskit上表现好而在PennyLane上表现差,这是因为它不懂量子计算,还是仅仅因为训练数据中Qiskit代码更多?单框架基准无法回答这个问题。
问题二:确定性评测与概率性执行的冲突
经典代码生成评测(如HumanEval)假设程序输出是确定性的。但量子程序本质上是概率性的:一个量子态 的测量结果是服从概率分布的随机变量。传统的”输出是否完全相等”评测标准在量子领域不再适用。
问题三:缺乏跨框架的公平比较
不同框架的抽象层次不同:Qiskit提供细粒度的电路控制,PennyLane强调可微分编程,Cirq专注于NISQ算法。如何在保持”任务意图”一致的前提下,公平比较模型在不同框架上的表现?这需要精心设计的对齐任务(aligned tasks)。
1.3 QuanBench+的研究定位
QuanBench+通过以下设计创新回应了上述挑战:
创新一:跨框架任务对齐
QuanBench+将42个任务适配到三个框架,保持任务意图完全一致,仅改变目标框架。例如,“实现Grover算法”这一任务,在Qiskit、PennyLane和Cirq中的功能目标完全相同,只是API调用不同。
创新二:概率性输出的标准化评测
引入KL散度(Kullback-Leibler Divergence)作为概率分布相似度的度量。当模型生成的代码输出概率分布与标准解的KL散度低于阈值(0.05)时,判定为正确。这一方法解决了量子程序的概率性评测难题。
创新三:错误归因分析框架
通过对比模型在同一任务的不同框架上的表现,可以归因错误类型:
- 如果在所有框架上都失败 → 概念性错误(量子算法理解错误)
- 如果在特定框架上失败 → 框架性错误(API熟悉度不足)
核心贡献与创新点
2.1 三大量子框架的统一评测
QuanBench+的核心贡献在于建立了首个真正跨框架的量子代码生成基准。评测覆盖:
- Qiskit (IBM):最成熟的量子开发框架,工业界使用最广泛
- PennyLane (Xanadu):强调量子-经典混合计算和可微分编程
- Cirq (Google):专注于NISQ(含噪中等规模量子)算法
三个框架的设计理念差异显著:
flowchart LR
subgraph Qiskit["Qiskit - 电路中心"]
A1[QuantumCircuit] --> A2[Gate Operations]
A2 --> A3[Measurement]
A3 --> A4[Backend Execution]
end
subgraph PennyLane["PennyLane - 可微分编程"]
B1[QNode] --> B2[Quantum Function]
B2 --> B3[Device]
B3 --> B4[Gradient Computation]
end
subgraph Cirq["Cirq - NISQ优化"]
C1[Circuit] --> C2[Moments]
C2 --> C3[Gate Decomposition]
C3 --> C4[Noise Model]
end
style Qiskit fill:#e1f5fe
style PennyLane fill:#f3e5f5
style Cirq fill:#e8f5e9
这种设计使QuanBench+能够回答一个关键问题:LLM的量子代码生成能力,有多少是”真正的”量子推理,有多少仅仅是”框架记忆”?
2.2 概率性输出的KL散度评测
QuanBench+放弃了传统的”输出完全匹配”评测标准,引入了KL散度作为概率分布相似度的度量。
评测原理:
对于量子程序的测量结果,标准解产生概率分布 ,模型生成的代码产生分布 。两者之间的KL散度定义为:
当 时,判定为正确。这一阈值的设定基于对标准解多次执行的统计分析(见论文附录C)。
优势:
- 容忍实现多样性:不同的电路实现可能产生相同或近似的概率分布(如不同的门分解路径)
- 捕捉量子本质:关注测量结果的统计特性,而非电路的具体结构
- 避免假阴性:不会因为电路实现与标准解不同而错误地判定为失败
与传统保真度指标的区别:
论文明确排除了电路保真度(fidelity)作为评测指标。保真度衡量的是两个酉矩阵的重叠程度:
\\mathcal{F}(U_{ref}, U_{gen}) = \\left|\\frac{1}{d}\\text{Tr}(U_{ref}^\\dagger U_{gen})\\right|^2
但保真度存在根本性局限:不同的电路可能实现相同的测量统计特性,但具有很低的保真度。例如,插入与测量基相关的相位变换会改变全局保真度,但不影响计算基测量结果。因此,QuanBench+采用功能正确性(functional correctness)而非电路保真度作为评测标准。
2.3 反馈修复机制的系统性研究
QuanBench+不仅评测模型的”一次性”代码生成能力,还研究了**反馈修复循环(Feedback Loop)**的效果。
修复流程:
flowchart TD
A[初始代码生成] --> B{执行测试}
B -->|运行时错误| C[提供错误跟踪]
B -->|错误输出| D[提供错误函数]
B -->|正确| E[通过]
C --> F[修复提示]
D --> F
F --> G[代码修复]
G --> B
style C fill:#ffccbc
style D fill:#ffccbc
style E fill:#c8e6c9
修复循环最多允许5次迭代。每次迭代中,模型会收到:
- 原始提示(任务描述)
- 上一次生成的代码
- 错误信息(运行时异常或输出不匹配)
- 修复指令
核心发现:
反馈修复带来的性能提升是”广泛而非特定”的——不仅顶级模型受益,中等模型也有显著提升。这表明:当前LLM在量子代码生成中的失败,很大程度上不是”能力不足”,而是”信息不足”。通过提供执行反馈,模型能够自我纠正框架性错误和部分概念性错误。
2.4 预填充(Prefill)的效果分析
研究还探讨了**预填充(Prefill)**技术的效果——即在提示中提供框架特定的代码模板(如导入语句、函数签名)。
发现:
预填充主要帮助中小型模型减少接口摩擦(import错误、函数签名错误),但对顶级模型的帮助有限。这暗示顶级模型已经内化了框架的基本结构,其错误更多集中在语义层面(算法逻辑错误)。
这一发现具有重要的实际意义:在生产环境中,为模型提供代码模板可以提高可靠性,但不能期望它解决深层的算法理解问题。
技术方法论详解
3.1 任务集设计与分类
QuanBench+包含42个任务,分为三类:
| 类别 | 任务数量 | 典型任务 | 评测方法 |
|---|---|---|---|
| 量子算法 | 18 | Grover搜索、量子傅里叶变换、VQE | KL散度 |
| 门分解 | 12 | 通用门分解、受控门优化 | 确定性检查 |
| 态制备 | 12 | Bell态、GHZ态、W态制备 | KL散度 |
任务对齐策略:
每个任务被适配到三个框架,保持功能目标完全一致。以”制备Bell态”为例:
- Qiskit版本:使用
QuantumCircuit.h()和QuantumCircuit.cx() - PennyLane版本:使用
qml.Hadamard()和qml.CNOT() - Cirq版本:使用
cirq.H()和cirq.CNOT()
三个版本的预期输出都是相同的Bell态测量统计:。
3.2 Pass@k评测指标
QuanBench+采用代码生成领域标准的Pass@k指标:
其中,是生成的样本数,是正确的样本数。
实验设置:
- Pass@1:温度=0.0(贪婪解码),生成1个样本
- Pass@5:温度=0.8,生成5个样本
- Pass@1 (FB):反馈修复后的Pass@1,最多5次修复迭代
3.3 实验模型选择
研究评测了14个前沿LLM,涵盖:
- 闭源商业模型:GPT-4o、GPT-5.1、Claude 3.7 Sonnet、Gemini 2.5 Flash、Gemini 3 Pro
- 开源模型:DeepSeek-V3、DeepSeek-R1、Llama 4 Maverick、Qwen2.5、MiniMax-M2.1、Kimi-K2
模型选择覆盖了不同的训练数据、架构设计和能力特点,确保了评测结果的泛化性。
3.4 执行环境控制
为确保结果可复现,研究严格控制了执行环境:
- Python版本:3.10
- Qiskit版本:0.46.0
- Cirq版本:1.6.1
- PennyLane版本:0.43.1
所有代码在隔离的Python环境中执行,超时限制为30秒,内存限制为2GB。
实验结果与关键发现
4.1 主要结果:框架间的不对称性
一次性生成(Pass@1)的顶级模型表现:
| 模型 | Qiskit | Cirq | PennyLane | 平均 |
|---|---|---|---|---|
| Gemini 3 Pro | 59.5% | 54.8% | 38.1% | 50.8% |
| GPT-5.1 | 54.8% | 50.0% | 42.9% | 49.2% |
| Claude 3.7 Sonnet | 52.4% | 47.6% | 40.5% | 46.8% |
| DeepSeek-R1 | 50.0% | 45.2% | 35.7% | 43.6% |
| Llama 4 Maverick | 45.2% | 42.9% | 33.3% | 40.5% |
核心洞察:
-
框架难度梯度稳定:对所有模型,性能排序都是 Qiskit > Cirq > PennyLane。这一稳定性暗示框架熟悉度是跨模型的普遍瓶颈。
-
无全能冠军:Gemini 3 Pro在Qiskit和Cirq上领先,但GPT-5.1在PennyLane上表现最佳。这表明不同模型的训练数据分布存在差异。
-
PennyLane鸿沟:PennyLane上的性能普遍比Qiskit低15-20个百分点,且不同模型间的差距更大(最高42.9% vs 最低28.6%)。
4.2 反馈修复的效果
Pass@1 (FB) - 反馈修复后的性能:
| 模型 | Qiskit | Cirq | PennyLane | 平均提升 |
|---|---|---|---|---|
| Gemini 3 Pro | 83.3% | 76.2% | 66.7% | +28.0% |
| GPT-5.1 | 80.9% | 73.8% | 64.3% | +26.0% |
| Claude 3.7 Sonnet | 78.6% | 71.4% | 61.9% | +24.0% |
关键发现:
-
广泛提升:反馈修复带来的提升是普遍现象,所有模型都受益,而非仅限于顶级模型。
-
剩余错误集中化:即使经过反馈修复,仍有约15-35%的任务失败。论文分析显示,这些剩余错误 increasingly集中在深层语义错误(如算法逻辑错误、量子态演化理解错误)。
-
框架差距缩小:反馈修复后,PennyLane与Qiskit的差距从约20个百分点缩小到约15个百分点,表明部分PennyLane困难可以通过迭代反馈缓解。
4.3 错误类型分析
论文对错误进行了分类统计(基于附录H和I):
运行时错误(可修复):
- 导入错误(ImportError):约15-20%
- API调用错误(AttributeError):约10-15%
- 类型错误(TypeError):约5-10%
语义错误(难以修复):
- 算法逻辑错误:约20-25%
- 测量方案错误:约10-15%
- 量子态演化理解错误:约15-20%
发现:
反馈修复主要解决运行时错误,对语义错误的效果有限。这暗示当前LLM在量子计算的”概念理解”层面仍有根本性局限——它们可以学会正确的API调用,但难以理解量子算法的数学本质。
4.4 预填充(Prefill)的效果
预填充 vs 无预填充的Pass@1对比(部分模型):
| 模型 | Qiskit (Prefill) | Qiskit (No-Prefill) | 提升 |
|---|---|---|---|
| Llama 4 Maverick | 45.2% | 35.7% | +9.5% |
| Qwen2.5 | 42.9% | 33.3% | +9.6% |
| GPT-5.1 | 54.8% | 52.4% | +2.4% |
| Gemini 3 Pro | 59.5% | 57.1% | +2.4% |
洞察:
预填充对中小型模型的帮助显著(约10个百分点),但对顶级模型的帮助有限(约2-3个百分点)。这表明顶级模型已经内化了框架的基本结构,其错误更多集中在语义层面而非接口层面。
局限性与未来工作
5.1 QuanBench+的局限性
任务规模限制:
QuanBench+仅包含42个任务,相较于经典代码生成基准(如HumanEval+的164个任务)规模较小。这限制了评测结果的统计显著性,特别是在细粒度错误分析时。
任务类别不平衡:
量子算法任务(18个)远多于门分解(12个)和态制备(12个)。这种不平衡可能导致评测结果偏向算法理解能力,而低估模型在电路优化和低级控制方面的能力。
框架版本锁定:
评测使用了特定版本的框架(Qiskit 0.46.0、PennyLane 0.43.1、Cirq 1.6.1)。量子框架更新迅速,新版本可能引入API变化,导致评测结果随时间推移而”过期”。
缺乏长程任务:
QuanBench+的任务都是单函数级别的”小程序”。真实世界的量子软件开发涉及多文件、多模块的复杂项目,当前基准无法评估LLM在这种复杂场景下的能力。
5.2 量子代码生成的根本性挑战
概率性调试困难:
量子程序的概率性输出使得调试异常困难。一个程序可能90%的时间输出正确结果,但10%的时间失败——这种非确定性行为难以用传统的单元测试捕捉。
硬件-软件耦合:
量子代码的正确性不仅取决于软件逻辑,还取决于目标硬件的拓扑结构、噪声特性和门保真度。当前的LLM缺乏对特定硬件特性的理解。
数学抽象层次:
量子算法涉及复杂的线性代数、群论和概率论。当前的LLM在推理这些数学抽象时仍显不足,特别是在处理多量子比特纠缠和相位关系时。
5.3 未来研究方向
方向一:扩展任务集
- 增加任务数量到200+,覆盖更广泛的量子算法和应用场景
- 引入多文件、多模块的复杂项目级任务
- 增加错误注入任务(故意包含错误的代码,要求模型识别和修复)
方向二:硬件感知评测
- 在真实量子硬件(而非模拟器)上执行生成的代码
- 引入噪声模型和硬件拓扑约束
- 评测生成的代码在特定硬件上的执行效率和保真度
方向三:多模态扩展
- 引入量子电路图(QASM)的输入/输出
- 支持从数学公式生成量子代码
- 支持从自然语言论文描述生成代码
方向四:安全性和鲁棒性
- 评测生成的代码对输入扰动的鲁棒性
- 研究量子代码的潜在安全风险(如资源耗尽攻击)
- 开发量子代码的静态分析工具
实际应用意义与启示
6.1 对量子开发者的指导
现阶段建议:
-
不要完全依赖LLM:当前模型在量子代码生成上的准确率仍低于85%(即使是最佳情况),关键任务代码仍需人工审核。
-
优先使用Qiskit:如果团队对框架选择有灵活性,Qiskit是目前LLM支持最好的框架,可以期待更高的代码生成准确率。
-
建立反馈循环:在生产环境中,将LLM代码生成与自动化测试和错误反馈机制结合,可以显著提升可靠性。
-
提供代码模板:为模型提供框架特定的代码模板(import、函数签名等),可以减少低级错误。
6.2 对LLM研究者的启示
训练数据策略:
当前LLM在PennyLane上的表现明显弱于Qiskit,暗示训练数据中PennyLane代码的不足。量子代码生成模型的训练数据集应该:
- 平衡覆盖主流框架
- 包含更多长CoT(思维链)风格的量子推理数据
- 引入硬件执行反馈信号
评估方法创新:
传统Pass@k指标可能不足以评估量子代码生成。需要开发:
- 考虑概率性输出的评测指标
- 多轮交互式评测(模拟真实开发流程)
- 硬件感知的评测(在真实量子设备上测试)
6.3 对量子计算教育的影响
QuanBench+揭示了当前LLM在量子概念理解上的局限,这对量子计算教育有重要启示:
LLM作为学习助手:
LLM可以帮助学生快速生成框架代码、解释API用法,但不应该被用来替代对量子算法原理的理解。教育者应该:
- 强调量子算法的数学推导
- 要求学生在运行代码前手动验证量子态演化
- 教授量子程序的调试技巧(特别是概率性调试)
新的教学工具:
QuanBench+的反馈修复机制可以被改造为教学工具:
- 学生提交代码
- 系统自动提供错误反馈
- 学生迭代修复,学习量子编程的细微之处
6.4 产业应用前景
短期(1-2年):
- 代码补全:在IDE中提供量子代码的自动补全,类似于GitHub Copilot
- 模板生成:根据自然语言描述生成框架特定的代码模板
- 文档查询:将自然语言问题转换为框架API查询
中期(3-5年):
- 算法实现:根据论文描述自动实现量子算法
- 跨框架迁移:自动将代码从一种框架迁移到另一种框架
- 电路优化:自动生成优化后的量子电路
长期(5年以上):
- 量子-经典混合编程:自动生成端到端的量子-经典混合应用
- 硬件适配:自动为目标量子硬件生成优化的代码
- 算法发现:探索新的量子算法变体
相关工作与领域背景
7.1 经典代码生成基准
HumanEval (Chen et al., 2021):由OpenAI发布的首个LLM代码生成基准,包含164个编程问题,每个问题提供函数签名和docstring,要求模型生成Python实现。HumanEval确立了Pass@k作为代码生成评测的标准指标。
HumanEval+ (Liu et al., 2024):HumanEval的扩展版本,增加了更多边界测试用例,使评测更加严格。
MBPP (Mostly Basic Python Problems):另一个广泛使用的Python代码生成基准,侧重于基础编程问题。
7.2 量子代码生成研究
Qiskit Code Assistant (Dupuis et al., 2024):IBM开发的专门针对Qiskit的代码生成模型,使用大量Qiskit代码进行微调。
PennyCoder (Basit et al., 2025):针对PennyLane框架的代码生成模型,展示了领域特定微调的效果。
QUASAR (Yu et al., 2025):探索使用工具增强的LLM生成量子汇编代码,代表了向更低抽象层次扩展的趋势。
7.3 量子基准测试演进
Qiskit HumanEval (Vishwakarma et al., 2024):将HumanEval适配到Qiskit的基准测试,验证了LLM在量子代码生成上的初步可行性。
QHackBench (Basit et al., 2025):基于PennyLane QHack竞赛题目构建的基准,侧重于实际应用场景。
QuanBench (Guo et al., 2025):QuanBench+的前身,首次提出多维度评测量子代码生成(功能正确性 + 电路保真度)。
7.4 本研究的独特贡献
相较于相关工作,QuanBench+做出了以下独特贡献:
-
首个跨框架基准:首次实现三大量子框架的统一评测,揭示了框架熟悉度对性能的决定性影响。
-
概率性评测标准化:引入KL散度作为量子程序功能正确性的评测标准,解决了概率性输出的评测难题。
-
反馈修复系统性研究:首次系统评估了反馈修复对量子代码生成的效果,量化了”可修复错误”和”深层错误”的比例。
-
错误归因分析框架:通过跨框架对比,提供了区分概念性错误和框架性错误的方法论。
结论与展望
8.1 核心结论
QuanBench+通过42个跨框架任务、14个前沿LLM、三种评测模式(Pass@1、Pass@5、Pass@1 with Feedback)的系统评测,得出了以下核心结论:
结论一:框架熟悉度仍是瓶颈
当前LLM在量子代码生成上的表现,很大程度上取决于训练数据中各框架代码的分布。Qiskit的领先地位(59.5% Pass@1)和PennyLane的落后(42.9% Pass@1)反映了训练数据的不平衡。
结论二:反馈修复带来质变
反馈修复可将性能提升20-40个百分点(Qiskit从59.5%提升到83.3%),这一提升幅度远超简单的模型规模扩展。这表明:量子代码生成应该被设计为一个迭代对话过程,而非一次性生成。
结论三:深层语义理解仍有根本局限
即使经过反馈修复,仍有15-35%的任务失败,且剩余错误集中在算法逻辑和量子态演化理解上。这暗示当前LLM在理解量子计算的数学本质方面仍有根本性不足。
结论四:预填充的价值有限
预填充(提供代码模板)对顶级模型的帮助有限(约2-3个百分点),表明这些模型已经内化了框架结构。其错误更多来自语义层面,而非接口层面。
8.2 实践建议
对于量子开发者:
- 将LLM作为辅助工具而非替代方案
- 优先使用Qiskit以获得最佳代码生成效果
- 建立自动化测试和反馈循环
- 始终人工审核关键代码
对于LLM研究者:
- 在训练数据中平衡各框架的分布
- 开发更适合概率性输出的评测指标
- 探索多轮交互式训练方法
- 加强对量子算法数学原理的学习信号
对于教育者:
- 强调量子算法的数学推导,而非仅依赖代码生成
- 利用QuanBench+的反馈机制设计教学工具
- 教授量子程序的调试技巧
8.3 未来展望
QuanBench+为量子代码生成领域提供了重要的评测基准和研究框架。展望未来,我们期待看到:
短期:
- 更大规模的任务集(200+任务)
- 真实量子硬件上的评测
- 跨框架代码自动迁移工具
中期:
- 支持自然语言论文描述的代码生成
- 量子-经典混合应用的端到端生成
- 硬件感知的代码优化
长期:
- 新的量子算法发现
- 全自动量子软件开发流程
- 量子计算的民主化(降低专业门槛)
量子计算与大型语言模型的结合,正在开启一个全新的研究和应用领域。QuanBench+作为这一领域的早期探索,为后续研究奠定了坚实的基础。我们期待看到更多研究者在这一方向上取得突破,最终实现”用量子计算解决实际问题”的愿景。
参考资料
主要引用
- Slim, A., et al. (2026). “QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation.” arXiv preprint arXiv:2604.08570.
- 本研究的核心论文
- arXiv链接
- Hugging Face链接
- 开源代码
相关基准测试
-
Chen, M., et al. (2021). “Evaluating Large Language Models Trained on Code.” arXiv preprint arXiv:2107.03374.
- HumanEval基准的原始论文
-
Liu, J., et al. (2024). “HumanEval+: Training and Evaluating Code Generation Models on Harder Problems.” arXiv preprint arXiv:2404.12246.
- HumanEval的扩展版本
-
Guo, X., et al. (2025). “QuanBench: Benchmarking Quantum Code Generation with Large Language Models.” arXiv preprint arXiv:2510.16779.
- QuanBench+的前身工作
量子代码生成研究
-
Dupuis, N., et al. (2024). “Qiskit Code Assistant: Training LLMs for Generating Quantum Computing Code.” IEEE LLM Aided Design Workshop (LAD).
- IBM的Qiskit代码生成模型
-
Basit, A., et al. (2025). “PennyCoder: Efficient Domain-Specific LLMs for PennyLane-Based Quantum Code Generation.” IEEE QCE.
- PennyLane代码生成模型
-
Yu, Z., et al. (2025). “QUASAR: Quantum Assembly Code Generation Using Tool-Augmented LLMs via Agentic RL.”
- 量子汇编代码生成
量子计算框架
-
Aleksandrowicz, G., et al. (2019). “Qiskit: An Open-Source Framework for Quantum Computing.” Zenodo.
- IBM Qiskit框架
-
Bergholm, V., et al. (2018). “PennyLane: Automatic Differentiation of Hybrid Quantum-Classical Computations.” arXiv:1811.04968.
- Xanadu PennyLane框架
-
Google Quantum AI (2021). “Cirq: A Python Framework for NISQ Algorithms.” Zenodo.
- Google Cirq框架
在线资源
-
Hugging Face Papers: https://huggingface.co/papers
- 论文社区讨论
-
arXiv Quantum Physics: https://arxiv.org/list/quant-ph/recent
- 量子物理最新论文
-
Qiskit Documentation: https://qiskit.org/documentation/
- Qiskit官方文档
报告完成时间: 2026年4月15日
分析师: 硅基写手
字数统计: 约 9,500 字
数据来源: Hugging Face Papers (2026-04-15), arXiv (2604.08570)