美团龙猫 (LongCat) 系列:LongCat-Flash-Prover 模型详细介绍
美团龙猫团队于2026年3月21日正式发布并开源了 LongCat-Flash-Prover(简称 Flash-Prover)模型。这是一款专注于形式化数学定理证明的大型混合专家模型(MoE),旨在通过深度学习技术解决传统数学定理证明中高耗时、易出错的问题。
以下是该模型的详细技术解读:
1. 核心定位与目标
LongCat-Flash-Prover 是美团龙猫团队在 LongCat-Flash 模型系列基础上专门研发的“原生形式化推理”模型。
- 主要目标:在 Lean4 形式化证明语言环境下,提升 AI 的原生形式化推理能力(Native Formal Reasoning),实现“读懂题目-构思思路-自动形式化-生成形式化证明”的完整闭环。
- 解决痛点:传统 AI 在数学证明任务中往往依赖“思维链”或“中间步骤”,但在真正的形式化证明(如定理机验证)中仍存在高比例的“幻觉”或逻辑错误。Flash-Prover 通过模型结构和训练策略的创新,显著降低了这种幻觉现象,提升了验证的通过率。
2. 模型规模与架构
- 参数规模:模型拥有 5677 亿参数,采用 Mixture-of-Experts (MoE) 架构。这意味着在实际推理时,模型会动态激活子网络(专家),大幅提升了推理效率。
- 架构创新:
- 混合专家迭代框架 (Hybrid-Experts Iteration Framework):通过多阶段的训练过程,模型能够生成大规模、高质量的形式化推理轨迹,特别是在长链式思考(Long Chain-of-Thought)任务中表现出色。
- AST 验证流程:模型生成的推理轨迹会经过抽象语法树(AST)层面的多阶段严格验证,确保逻辑的严密性,极大地消除了“幻觉”现象。
3. 关键技术创新:HisPO 算法
LongCat-Flash-Prover 引入了 Hierarchical Importance Sampling Policy Optimization (HisPO) 算法。
- 核心功能:在强化学习(RL)阶段,HisPO 通过分层重要性采样的策略优化方法,解决了 MoE 模型在长程任务训练中的不稳定性问题。
- 奖励机制:引入了定理一致性和合法性检测机制,防止模型通过“作弊”(Reward Hacking)来获得高分,从而确保模型的训练奖励真实反映了证明的正确性。
4. 训练与推理能力
- 任务分解能力:模型将原生形式化推理任务分解为三个独立的子能力:
- 自动形式化 (Auto-Formalization):将非形式化的数学题目转换为 Lean4 代码或公式。
- 草图 (Sketching):生成证明的大纲或引理(Lemma)结构。
- 证明 (Proving):生成完整的形式化证明代码。
- 推理效率:相比于传统的“自回归”推理方式(一个词一个词生成),Flash-Prover 在代码层面的推理效率更高,并通过了高效的验证流程,确保输出结果的可验证性。
5. 性能表现与突破
LongCat-Flash-Prover 在多个权威数学证明基准测试中刷新了记录,展现了极强的竞争力:
- MiniF2F-Test (几何与代数基准):
- 通过率:刷新至 97.1% 的成绩。
- 推理次数:仅需 72次 推理尝试即可解决问题,展示了极高的推理效率。
- PutnamBench (难度更高的大学生定理证明):
- 解决率:在复杂度极高的 PutnamBench 任务中解决了 41.5% 的问题。
- 推理次数:使用了 118次 推理尝试,显示了在高难度任务中的稳定性。
- ProverBench (复杂定理集):
- 通过率:在更具挑战性的 ProverBench 基准上达到了 70.8% 的通过率。
- 其他基准:
- 在 AIME-25、HMMT-25、IMO-AnswerBench 等多个国际数学竞赛基准测试中,Flash-Prover 的表现均保持在领先水平。
6. 开源生态与影响
- 开源地址:模型代码、权重以及训练脚本已在 GitHub 上开源,归属于美团 LongCat 组织。
- 行业意义:
- 标志性突破:LongCat-Flash-Prover 标志着 AI 在垂直专业领域(尤其是高阶逻辑推理)取得了显著突破,不仅在“通用推理”上保持竞争力,更在“形式化逻辑”这一极难领域达到了 SOTA 水平。
- 推动学术:模型的开源为数学逻辑、形式化验证以及 AI 与数学交叉研究提供了强大的工具支持,预示着未来 AI 将在更高阶的人类认知任务中发挥关键作用。
总的来说,LongCat-Flash-Prover 通过创新的混合专家架构、强化学习算法和严格的验证流程,成功解决了 AI 进行高质量形式化数学证明的难题,堪称是当前公开可用的“数学 AI”领域的巅峰之作。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!