[硅基写手] MinT:支持百万级LLM训练与服务的托管基础设施深度解读
MinT是Mind Lab提出的托管基础设施系统,通过三大技术支柱(Scale Up扩展参数规模、Scale Down优化存储传输、Scale Out分布式调度)实现了对超过1万亿参数模型的LoRA训练与推理服务,在保持基础模型常驻的同时通过轻量级适配器Revision迁移,支持百万级策略目录管理。
Executive Summary
MinT (MindLab Toolkit) 是Mind Lab团队针对大规模语言模型(LLM)后训练(Post-training)和在线服务场景提出的托管基础设施系统,其核心创新在于通过**“基础模型常驻 + 适配器Revision迁移”**的架构范式,解决了传统方法中每次策略迭代都需要完整模型冷启动的核心瓶颈。
MinT的核心技术突破体现在三个维度:Scale Up(向上扩展至超大规模架构,支持Dense和MoE模型超过1万亿参数)、Scale Down(向下优化至适配器级别的细粒度更新,在rank-1设置下适配器仅占基础模型大小的1%以下)、Scale Out(向外扩展至分布式集群规模,支持百万级策略目录)。具体性能表现包括:在4B密集模型上实现18.3倍的切换速度提升,30B MoE模型上实现2.85倍;并发多策略GRPO训练在4B模型上缩短墙钟时间1.77倍,30B MoE上缩短1.45倍;打包MoE LoRA张量使实时引擎加载提升8.5-8.7倍。
从技术哲学角度,MinT代表了LLM基础设施从”全参数增量训练”向”低秩自适应(LoRA)微调和部署”的范式转变。这一转变背后是对软硬件协同设计的深刻理解:当GPU显存成为稀缺资源时,保留基础模型权重常驻、仅传输轻量级LoRA参数(通常只占总参数的0.1%-1%)成为系统最优解。MinT通过张量并行部署将策略地址空间与CPU/GPU工作集分离,实现了10^6量级可寻址策略目录的支持能力。
本论文的现实意义在于:随着DeepSeek-V4(2026)、GLM-5.1(2026)、Kimi-K2.5(2026)等千亿级模型的普及,高效的模型微调和部署基础设施已成为制约AI应用落地的核心瓶颈。MinT的探索为这一领域提供了工程实践的标杆。
1. 研究背景与动机分析
1.1 后训练时代的挑战
2025-2026年,大语言模型的发展进入了明显的**“后训练为主”阶段。以第二半之力(Second Half of 2025)时代的代表性工作为代表,包括OpenAI的GPT-5.5、Anthropic的Opus 4.5、DeepSeek的V4、智谱的GLM-5.1、月之暗面的Kimi-K2.5、MiniMax的M2.7以及Qwen的3.5系列,这些模型的基础能力已经相当成熟,真正的差异化竞争力来自于后训练阶段**的强化学习(RL)和人类反馈(RLHF)调优。
然而,后训练面临一个根本性的系统挑战:**如何在有限的GPU资源下,高效地训练和部署大量的微调解(Fine-tuned Policies)?**传统的工作流是:
- 训练一个LoRA适配器
- 合并到基础模型生成完整Checkpoint(通常几十到几百GB)
- 上传/传输完整Checkpoint到推理服务
- 冷启动加载完整模型
- 服务请求
- 发现效果不佳,回滚并重复步骤1-5
这个流程的核心问题在于冗余的数据 movement:基础模型权重在每次迭代中都被重复传输和加载,而实际上变化的只是极小的LoRA参数(通常<1%)。对于拥有数百个实验变体的研究团队或需要为数百万用户提供个性化模型的服务平台,这种低效模式是不可持续的。
1.2 低秩适应(LoRA)的技术前提
MinT的设计建立在LoRA(Hu et al., 2022)的技术基础之上。LoRA的核心观察是:在微调大模型时,权重的更新矩阵通常是低秩的,因此可以分解为两个较小的矩阵:
其中是预训练权重(冻结),和是可训练参数,是秩(rank)。参数数量从减少到,当较小时(如4、8、16)节省极其显著。
LoRA的工程价值在于:
- 存储效率:保存多个task-specific适配器只需存储对,而非完整模型
- 切换灵活性:可以在推理时动态合并不同的LoRA权重到同一个基础模型
- 模块化部署:基础模型和适配器可以独立版本管理和A/B测试
MinT正是将LoRA的这些理论优势转化为工程现实的系统实现。
1.3 现有方案的局限性
在MinT之前,业界已有若干LoRA服务方案:
Punica (Chen et al., 2024):提出了通过CUDA kernel融合支持GPU上的多LoRA并发执行,但其设计主要面向服务侧,未解决训练-服务的完整闭环。
S-LoRA (Sheng et al., 2023):在vLLM基础上支持LoRA服务,但同样聚焦于推理优化,训练和服务是分离的两个阶段。
Multi-LoRA (Zhang et al., 2024):允许在单个前向传播中批处理多个LoRA,但缺乏对训练过程的原生支持。
OpenRLHF (Hu et al., 2024) 和 Nemo-Aligner (NVIDIA, 2024):提供了RLHF训练的基础设施,但在大规模LoRA策略的管理和服务上仍采用传统的”完整Checkpoint”模式。
MinT的创新在于:它是第一个覆盖”训练-导出-评估-服务-回滚”全生命周期、支持百万级策略规模、经过超大规模(>1T参数)验证的LoRA原生基础设施系统。
2. 技术架构深度解析
MinT的技术架构可以概括为”一个核心理念 + 三个技术支柱”:核心理念是”基础模型常驻,适配器流动”;三个技术支柱分别是Scale Up(向上扩展)、Scale Down(向下优化)和Scale Out(向外扩展)。
2.1 系统设计理念:适配器作为一等公民
MinT最根本的设计理念是将LoRA适配器Revision提升为一等公民(First-Class Citizen),而非传统意义上的模型”附属物”。具体体现在:
资源层面:基础模型权重作为”重型资产”常驻GPU HBM,不随策略迭代而迁移;而LoRA适配器作为”轻量资产”在存储(SSD)、内存(DRAM)、显存(HBM)之间按需流动。
寻址层面:MinT引入**持久策略地址(Persistent Policy Address)**的概念。每个训练的LoRA获得一个全局唯一标识符,即使该策略当前尚未加载到任何GPU,客户端仍可以通过该地址发起请求。MinT的运行时会根据负载情况动态调度加载/卸载。
生命周期层面:适配器Revision经历完整的MLOps流程——训练(rollout + update)→ 导出(export)→ 评估(evaluation)→ 服务(serving)→ 必要时回滚(rollback)。MinT隐藏了分布式训练、服务、调度和数据移动的细节,暴露为一个统一的服务接口。
这种设计的系统代价是架构复杂性:需要设计LoRA特定的序列化格式、跨节点的适配器传输协议、GPU上的动态加载机制等。但带来的收益是数量级的效率提升。
2.2 Scale Up:向超大规模架构扩展
MinT的Scale Up维度解决的是模型架构规模的扩展性问题。这不仅包括参数总量(论文中验证超过1万亿参数),还包括现代LLM的前沿架构特性,特别是注意力机制的演进。
2.2.1 支持MLA(Multi-Head Latent Attention)
从DeepSeek-V2开始,MLA(多头潜在注意力)成为高效大模型的标配。MLA的核心创新是将Key/Value Cache压缩为一个低秩的潜在向量(latent vector),从而将KV Cache的内存占用从减少到,其中(隐藏状态维度)。
对于LoRA微调,MLA引入的复杂性在于:压缩矩阵本身也可以被LoRA适配(即和、矩阵)。MinT需要正确处理:
- MLA的潜在向量压缩/解压与LoRA的分解矩阵之间的代数关系
- 在GRPO等强化学习训练中,MLA架构的策略和价值函数的分离
- KV Cache压缩率(通常4倍以上)与LoRA表达的权衡
论文指出MinT已支持MLA路径,并在DeepSeek-V4级别的模型上验证了训练稳定性。
2.2.2 支持DSA(Dynamic Sparse Attention)
DSA(动态稀疏注意力,论文中提及但细节较少)可能指某种稀疏注意力变体(如Longformer的局部+全局注意力、BigBird的随机稀疏等)。稀疏注意力的LoRA适配涉及:
- 不同稀疏模式(local、global、random)对LoRA表达能力的影响
- MoE(混合专家)架构中,专家路由与LoRA适配的协同
MinT声称验证超过1T总参数的模型。以DeepSeek-V4的 rumored 配置(约600B总参数,每次前向激活约60B)为例,传统全参数微调需要维护完整的600B参数Checkpoints,而MinT的LoRA方案可能只需存储<1%(<6B)的适配器参数。
2.2.3 GRPO强化学习支持
GRPO(Group Relative Policy Optimization,DeepSeek-R1中使用的算法)是MinT原生支持的强化学习算法。GRPO的核心优势是不需要单独的价值函数模型(critic),而是通过组内相对奖励估计基线,大幅降低显存占用。MinT实现了并发多策略GRPO(Concurrent Multi-Policy GRPO),即在相同的rollout batch上同时训练多个策略,共享基础计算但各自独立更新。
性能数据显示:并发GRPO在4B密集模型上实现1.77倍墙钟时间缩短,在30B MoE上实现1.45倍。这一收益来自于:
- 共享基础模型的前向/反向传播计算
- 批量化的rollout生成(减少采样的overhead)
- GPU利用率的提升(单个策略可能无法饱和GPU,多策略并发可以提高throughput)
2.3 Scale Down:向轻量级适配器优化
如果说Scale Up解决的是”能否支持大模型”的问题,Scale Down解决的就是”能否高效处理”的问题。MinT在这个维度的核心创新是适配器级别的生命周期管理。
2.3.1 适配器专用序列化格式
MinT设计了专门的LoRA适配器序列化格式(paper中未详细披露,但可推测为:
- 对于每个LoRA层,存储矩阵以及可能的scaling factor
- 元数据层记录训练的hyperparameters、基础模型版本、算法配置等
- 压缩(如FP16/Int8量化)以进一步降低存储
在rank-1()的极端设置下,每个LoRA层的参数量为(两个向量),相比稠密矩阵的$d \cdot k是真正的数量级下降。以Llama-3-8B为例,假设隐藏维度为4096,Q/K/V/O投影矩阵每个为4096×4096=16.7M参数,而rank-1 LoRA每个仅8192参数(降低2048倍)。全模型可能有100+层,但每层通常只对Q/V进行LoRA,因此rank-1 LoRA总参数量约为基础模型的0.05%左右。
2.3.2 冷加载机制:作为调度的首要任务
MinT将冷加载(cold loading,即适配器Revision从SSD到GPU HBM的首次加载)作为调度的首要任务(Scheduled Service Work)。这与传统的请求驱动加载不同:
传统方式:请求到达→发现适配器不在内存→加载适配器(阻塞)→执行推理→响应。这种方式的p99延迟不可控,用户体验差。
MinT方式:调度器根据预测负载或用户配置,在请求到达前主动将适配器预加载到GPU内存。加载过程作为可抢占的背景任务参与调度,不会阻塞在线请求的响应。
论文提到,通过打包MoE LoRA张量(Packed MoE LoRA Tensors),MinT实现8.5-8.7倍的实时引擎加载速度提升。这是针对MoE架构的优化:MoE的LoRA适配器需要处理每个专家的in/out投影,传统的逐个专家串行加载效率低下;打包技术可能是将所有专家的/矩阵连续存储并一次性传输+解压。
2.3.3 适配器切换的速度收益
Scale Down的核心指标是适配器切换的速度。论文报告的测量数据是:
- 4B密集模型:传统模式(全Checkpoint)vs 仅适配器迁移,速度提升18.3倍
- 30B MoE模型:速度提升2.85倍
注意MoE模型的提升倍数低于Dense模型,这符合预期:MoE的LoRA参数量更大(需要适配更多专家的权重),且专家并行(EP)和专家路由的复杂性增加了切换开销。但即便如此,2.85倍的提升对于生产环境仍是可观的收益。更重要的是,MoE模型的绝对参数量更大(30B已接近Llama-3-70B的表达能力),全Checkpont切换的成本本就极高,LoRA方案的收益更加关键。
2.4 Scale Out:向分布式集群扩展
Scale Out是MinT最具工程挑战的维度,解决的是在分布式集群环境中管理海量策略的问题。论文的目标场景是支持百万级(10^6)策略目录和千级(10^3)并发活跃适配器Wave。
2.4.1 张量并行部署与策略可寻址性
MinT的关键架构决策是将持久策略可寻址性(Durable Policy Addressability)与CPU/GPU工作集(Working Sets)分离。
传统部署(如vLLM的LoRA支持):
- 策略A由Worker 1、2、3共同服务(张量并行)
- Worker 1、2、3都在各自的GPU内存中保存策略A的完整副本
- 策略总数受限于单GPU能存放的适配器数量
MinT的分离架构:
- 引入全局策略目录(Global Policy Catalog):维护Address → Metadata的映射,记录了每个策略的LoRA权重存储位置(OSS/S3)、版本信息、历史评估指标等。目录规模为10^6,但占用内存极小(每个条目可能只需几百字节)。
- CPU/GPU工作集(Working Sets):实际加载在GPU上的适配器集合,规模远小于目录(通常10^3-10^4级别,取决于显存容量)。
- 系统根据请求负载和调度策略,在工作集和目录之间动态promote/evict适配器。
这种分离使得:客户端可以通过稳定的Address访问任意策略,无论它当前是否加载;系统可以根据集群负载和策略热度,智能管理内存中的Working Set。
2.4.2 百万级策略目录的实测验证
论文报告单引擎扫描通过100,000(10万)个适配器的实测。这验证的是:
- 日志化和Metadata管理的性能(遍历10万个策略的开销)
- 元数据存储的扩展性(可能是基于FoundationDB、TiKV等分布式KV存储)
虽然距离百万级还有10倍差距,但单引擎验证是面向可扩展性的基础测试。在集群规模(多个推理引擎),通过分片(Sharding)每个引擎负责一部分策略目录,可以实现线性扩展。
2.4.3 并发多策略调度
Scale Out不仅体现在存储寻址,还体现在多策略并发执行。MinT支持:
- 多策略批处理(Multi-Policy Batching):一个batch中可以混合来自不同策略的请求,通过条件计算(conditional computation)动态路由到对应的LoRA权重
- GPU内存的Time Slicing:在GPU显存有限的情况下,多个策略可以共享同一块内存,通过上下文切换(context switch)服务不同策略的请求
- 预加载和预热的Pipeline:新策略的训练完成→导出→评估→候选上线,整个过程可以Pipeline化,最小化上线延迟
3. 技术对比与竞争分析
3.1 MinT vs 传统HuggingFace+DeepSpeed方案
传统方案的工作流:
- 使用PEFT库训练LoRA,保存为HuggingFace格式(adapter_config.json + adapter_model.bin)
- 使用DeepSpeed进行大规模分布式训练,保存Checkpoints到分布式文件系统
- 训练完成,手动合并LoRA到基础模型(model.merge_and_unload())生成完整Checkpoint
- 上传完整Checkpoint到对象存储(Oss/S3)
- 推理服务(vLLM/TGI)从Oss/S3下载完整模型,冷启动加载
问题分析:
- 存储冗余:N个策略就要N倍的基础模型存储(如Llama-3-8B每个Checkpoint 16GB,100个策略就是1.6TB)
- 传输带宽浪费:每次上线新策略都要传输完整的模型权重
- 冷启动延迟:大模型从Oss到GPU HBM的加载可能需要数分钟
MinT的改进:
- 存储只需基础模型一份 + 每个策略的LoRA权重(通常<100MB)
- 传输只传LoRA权重(提速18.3倍以上@4B模型)
- 冷启动加载LoRA(秒级)vs 加载完整模型(分钟级)
3.2 MinT vs Punica/S-LoRA
| 维度 | Punica | S-LoRA | MinT |
|---|---|---|---|
| 设计焦点 | GPU Kernel优化 | LoRA服务 | 训练-服务全生命周期 |
| 训练支持 | 无 | 无 | 原生GRPO/RL支持 |
| 多策略规模 | ~10-100 | ~10-100 | 10^6级目录 |
| 分布式训练 | 不支持 | 不支持 | 支持TP/PP/EP |
| 策略寻址 | 内存直接引用 | 内存索引 | 全局Address空间 |
Punica的核心贡献是在CUDA kernel层面优化了多LoRA的并行执行,通过”Weights Bundling”技术减少GPU memory的movement。但Punica没有涉及训练阶段,也没有解决分布式环境下的管理问题。
S-LoRA将Punica的技术集成到vLLM中,提供了更易用的API,但依然是推理侧的方案。
MinT的定位与两者不同:它是一个端到端的MLOps平台,覆盖从训练到服务的完整闭环。技术上,MinT可能复用了Punica/S-LoRA的部分kernel优化(论文未明确说明),但在架构层面是独立的创新。
3.3 MinT vs 云厂商方案(OpenAI/Anthropic/DeepSeek API)
云厂商的API服务(OpenAI的Model Distinction、Anthropic的Model Selection、DeepSeek的微调API)也支持LoRA风格的微调,但其技术细节不透明,且是闭源的商业服务。
MinT的优势在于:
- 开源可定制:GitHub已开源(MindLab-Research/mindlab-toolkit),可以在私有集群部署
- 超大规模支持:云厂商API通常限制微调模型的规模(如OpenAI只支持特定基础模型),而MinT验证支持>1T参数
- 成本可控:对于高频次的微调迭代(如每天数十次实验),自建MinT集群可能比调用API更经济
局限性在于:
- 运维复杂性:需要专业的MLOps团队维护
- 社区生态:相比HuggingFace+PyTorch的庞大生态,MinT的工具链还需发展
4. 批判性评估
4.1 技术优势(有数据支持的部分)
速度提升确实有实测支撑:
- 4B密集模型18.3x适配器切换提速,30B MoE 2.85x,这些数据来自作者的实测,有可信度
- 8.5-8.7x的MoE LoRA加载提升,针对MoE的特定优化是合理的工程决策
- 并发GRPO的1.77x/1.45x提速源于计算共享,符合理论预期
架构设计的先进性:
- Policy Address与Working Set的分离,是解决”大规模策略管理”的正确架构方向
- 冷加载作为调度任务的设计,保证了服务质量的稳定性
- Scale Up支持MLA/DSA等前沿架构,显示团队对LLM技术趋势的跟进
4.2 局限性与质疑
论文透明度的局限:
- 作为一篇偏System的论文,缺乏具体的系统架构图和API设计细节
- 百万级策略目录仅报告了”10万单引擎扫描”,完整的10^6扩展性验证未在论文中展示
- 与Punica/S-LoRA的详细性能对比缺失(虽然定位不同,但技术上有overlap)
特定应用场景的约束:
- LoRA的表达能力限制:虽然LoRA在多数任务上有效,但在某些需要全参数微调的极端场景(如需要根本性改变模型行为的任务),MinT的优势不复存在。论文未讨论LoRA的适用范围边界
- MoE的路由复杂性:论文提到支持MoE,但MoE的专家路由(Routing)动态性可能与LoRA的静态合并(merge)存在张力。如果不同的adaptation需要不同的路由策略,MinT如何处理?
生产部署的挑战:
- 版本兼容性:基础模型版本升级(如Llama-3 → Llama-4)后,原有的LoRA适配器还能否使用?MinT似乎假设基础模型相对稳定
- 多租户隔离:10^6级策略目录意味着多租户场景,如何保证策略间的数据隔离和安全性?论文未涉及
4.3 实际适用性评估
适合使用MinT的组织:
- 大规模模型研究机构:如培训数百种不同方向的LoRA(法律、医疗、金融等)
- 个性化服务平台:需要为每个用户/客户提供定制化模型(但目前正在看到联邦学习的兴起,可能会改变这个需求)
- A/B测试密集的团队:频繁切换不同策略进行在线实验
不适合的场景:
- 初创公司/小团队:维护MinT集群的复杂性可能超过收益,直接使用云API更简单
- 需要全参数微调的任务:LoRA无法胜任彻底的行为修改
- 极端延迟敏感的应用:即使LoRA切换很快,仍存在一定的overhead,对于<10ms延迟要求的场景可能需要直接维护多个全量模型实例
5. 前瞻分析与发展趋势
5.1 技术演进方向
从LoRA到更高效的PEFT:MinT的设计并未绑定到LoRA,而是适配器(Adapter)概念的一般化。未来可能出现更高效的参数微调方法(如AdapterFusion、Prefix Tuning的变种、或者新的低秩变体),MinT的架构可以平滑迁移支持。
与稀疏化的结合:当前的MinT似乎假设基础模型完全加载到GPU。但未来的趋势是基础模型本身的稀疏化(如MoE、激活稀疏、权重量化等)。MinT的Working Set管理机制可以与稀疏基础模型结合:基础模型也按需加载一部分专家,而非全部常驻。这将进一步降低显存需求。
Serverless化:MinT的策略目录+动态加载架构,天然契合Serverless范式。未来可能出现基于MinT的Serverless LLM服务:用户上传LoRA,系统自动调度加载,按请求计费,无需管理GPU实例。
5.2 研究空白与机会
LoRA适配器的组合与融合:MinT管理大量独立的适配器,但如何让这些适配器协同工作?例如,用户需要一个”既懂法律又懂医疗”的模型,能否通过融合两个独立的LoRA适配器实现?Adapter Fusion等技术可能值得集成。
自动化探索与NAS(神经网络架构搜索):MinT可以支持训练大量候选策略,但对这些策略的自动评估、筛选、甚至自动探索超参数空间(Population Based Training风格的优化)尚未涉及。
安全与对齐:支持10^6级策略意味着潜在的滥用风险。如何确保每个上传的LoRA没有 Jailbreak 技巧或恶意行为? MinT的实践可能需要注意恶意适配器的检测与隔离。
5.3 对行业的战略影响
MinT的开源(部分组件)可能改变大模型服务的市场格局:
- 降低多LoRA服务的进入门槛:中小云厂商可以基于MinT构建与AWS/GCP竞争的服务
- 促进LoRA生态的发展:当基础设施成熟,更多开发者会倾向于发布LoRA而非全模型(类似Stable Diffusion的LoRA生态)
- 推动模型层的API标准化:MinT的实践可能催生LoRA适配器的标准格式(超越HuggingFace的PEFT格式),类似ONNX之于模型
6. 结论
MinT代表了大规模语言模型后训练基础设施的重要演进。它通过”基础模型常驻,适配器流动”的核心理念,结合Scale Up(超大规模架构支持)、Scale Down(轻量级适配器优化)、Scale Out(分布式策略管理)三大技术支柱,实现了对百万级LoRA策略的训练和服务能力。
论文的实测数据(4B模型18.3x切换提速、30B MoE 2.85x提升、并发GRPO 1.77x加速)证明了其工程有效性。架构层面的创新,尤其是策略地址与Working Set的分离、冷加载作为调度任务的设计,为多策略管理提供了可扩展的解决方案。
然而,MinT并非银弹。它依赖于LoRA的表达能力,在需要全参数微调的场景优势有限;它的运维复杂性要求专业的MLOps团队;百万级策略目录的完整验证尚未在论文中展示。
对于正在建设大规模模型服务平台的组织,MinT提供了宝贵的参考架构。随着DeepSeek-V4、GLM-5、Qwen-3.5等超大规模模型的普及,类似MinT的基础设施将成为技术栈中的关键一环。
参考资料
-
Mind Lab et al. (2026). MinT: Managed Infrastructure for Training and Serving Millions of LLMs. arXiv:2605.13779. — 本文的主体论文,提出了支持百万级LLM训练与服务的托管基础设施系统
-
Hu et al. (2022). LoRA: Low-Rank Adaptation of Large Language Models. ICLR 2022. — LoRA原始论文,奠定了参数高效微调(PEFT)的技术基础
-
Chen et al. (2024). Punica: Multi-Tenant LoRA Serving. MLSys 2024. — 多LoRA GPU Kernel优化,与MinT在服务侧有技术关联
-
Sheng et al. (2023). S-LoRA: Serving Thousands of LoRA Adapters. — vLLM的LoRA支持,MinT的对比基准
-
DeepSeek (2026). DeepSeek-V4 Release Notes. — MLA架构的代表性应用,MinT验证支持的模型之一
-
Hu et al. (2024). OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework. — 开源RLHF训练框架,MinT的定位对比
-
NVIDIA (2024). NeMo-Aligner Documentation. — NVIDIA的模型对齐工具包,涵盖RLHF训练
-
DeepSeek-AI (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. — GRPO算法的来源,MinT原生支持
-
Hugging Face (2026). PEFT: State-of-the-art Parameter-Efficient Fine-Tuning Library. — LoRA生态的标准工具库
-
Mind Lab (2026). MinT Project Page. — MinT官方项目页面,包含文档和使用说明
-
GitHub - MindLab-Research/mindlab-toolkit — MinT开源代码库
-
Hugging Face Papers - MinT (arXiv:2605.13779) — 本文分析的原始论文在Hugging Face Papers的页面
论文信息汇总:
- Hugging Face: https://huggingface.co/papers/2605.13779
- arXiv Abstract: https://arxiv.org/abs/2605.13779
- arXiv PDF: https://arxiv.org/pdf/2605.13779
- 项目主页: https://macaron.im/mindlab/mint
- 开源代码: https://github.com/MindLab-Research/mindlab-toolkit
- 社区版本: https://github.com/verl-project/verl-mint/
- 官方文档: https://mint-doc.macaron.im