美团龙猫发布开源数学定理证明模型 LongCat-Flash-Prover

AI资讯 2小时前 硕雀
1 0

美团龙猫 (LongCat) 系列:LongCat-Flash-Prover 模型详细介绍

美团龙猫团队于2026年3月21日正式发布并开源了 LongCat-Flash-Prover(简称 Flash-Prover)模型。这是一款专注于形式化数学定理证明的大型混合专家模型(MoE),旨在通过深度学习技术解决传统数学定理证明中高耗时、易出错的问题。

以下是该模型的详细技术解读:

1. 核心定位与目标

LongCat-Flash-Prover 是美团龙猫团队在 LongCat-Flash 模型系列基础上专门研发的“原生形式化推理”模型。

  • 主要目标:在 Lean4 形式化证明语言环境下,提升 AI 的原生形式化推理能力(Native Formal Reasoning),实现“读懂题目-构思思路-自动形式化-生成形式化证明”的完整闭环。
  • 解决痛点:传统 AI 在数学证明任务中往往依赖“思维链”或“中间步骤”,但在真正的形式化证明(如定理机验证)中仍存在高比例的“幻觉”或逻辑错误。Flash-Prover 通过模型结构和训练策略的创新,显著降低了这种幻觉现象,提升了验证的通过率。

2. 模型规模与架构

  • 参数规模:模型拥有 5677 亿参数,采用 Mixture-of-Experts (MoE) 架构。这意味着在实际推理时,模型会动态激活子网络(专家),大幅提升了推理效率。
  • 架构创新
    • 混合专家迭代框架 (Hybrid-Experts Iteration Framework):通过多阶段的训练过程,模型能够生成大规模、高质量的形式化推理轨迹,特别是在长链式思考(Long Chain-of-Thought)任务中表现出色。
    • AST 验证流程:模型生成的推理轨迹会经过抽象语法树(AST)层面的多阶段严格验证,确保逻辑的严密性,极大地消除了“幻觉”现象。

3. 关键技术创新:HisPO 算法

LongCat-Flash-Prover 引入了 Hierarchical Importance Sampling Policy Optimization (HisPO) 算法。

  • 核心功能:在强化学习(RL)阶段,HisPO 通过分层重要性采样的策略优化方法,解决了 MoE 模型在长程任务训练中的不稳定性问题。
  • 奖励机制:引入了定理一致性和合法性检测机制,防止模型通过“作弊”(Reward Hacking)来获得高分,从而确保模型的训练奖励真实反映了证明的正确性。

4. 训练与推理能力

  • 任务分解能力:模型将原生形式化推理任务分解为三个独立的子能力:
    1. 自动形式化 (Auto-Formalization):将非形式化的数学题目转换为 Lean4 代码或公式。
    2. 草图 (Sketching):生成证明的大纲或引理(Lemma)结构。
    3. 证明 (Proving):生成完整的形式化证明代码。
  • 推理效率:相比于传统的“自回归”推理方式(一个词一个词生成),Flash-Prover 在代码层面的推理效率更高,并通过了高效的验证流程,确保输出结果的可验证性。

5. 性能表现与突破

LongCat-Flash-Prover 在多个权威数学证明基准测试中刷新了记录,展现了极强的竞争力:

  • MiniF2F-Test (几何与代数基准)
    • 通过率:刷新至 97.1% 的成绩。
    • 推理次数:仅需 72次 推理尝试即可解决问题,展示了极高的推理效率。
  • PutnamBench (难度更高的大学生定理证明)
    • 解决率:在复杂度极高的 PutnamBench 任务中解决了 41.5% 的问题。
    • 推理次数:使用了 118次 推理尝试,显示了在高难度任务中的稳定性。
  • ProverBench (复杂定理集)
    • 通过率:在更具挑战性的 ProverBench 基准上达到了 70.8% 的通过率。
  • 其他基准
    • 在 AIME-25、HMMT-25、IMO-AnswerBench 等多个国际数学竞赛基准测试中,Flash-Prover 的表现均保持在领先水平。

6. 开源生态与影响

  • 开源地址:模型代码、权重以及训练脚本已在 GitHub 上开源,归属于美团 LongCat 组织。
  • 行业意义
    • 标志性突破:LongCat-Flash-Prover 标志着 AI 在垂直专业领域(尤其是高阶逻辑推理)取得了显著突破,不仅在“通用推理”上保持竞争力,更在“形式化逻辑”这一极难领域达到了 SOTA 水平。
    • 推动学术:模型的开源为数学逻辑、形式化验证以及 AI 与数学交叉研究提供了强大的工具支持,预示着未来 AI 将在更高阶的人类认知任务中发挥关键作用。

总的来说,LongCat-Flash-Prover 通过创新的混合专家架构、强化学习算法和严格的验证流程,成功解决了 AI 进行高质量形式化数学证明的难题,堪称是当前公开可用的“数学 AI”领域的巅峰之作。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!