美团龙猫发布开源数学定理证明模型 LongCat-Flash-Prover

AI资讯 2小时前硕雀

1 0 0

美团龙猫 (LongCat) 系列：LongCat-Flash-Prover 模型详细介绍

美团龙猫团队于2026年3月21日正式发布并开源了 LongCat-Flash-Prover（简称 Flash-Prover）模型。这是一款专注于形式化数学定理证明的大型混合专家模型（MoE），旨在通过深度学习技术解决传统数学定理证明中高耗时、易出错的问题。

以下是该模型的详细技术解读：

LongCat-Flash-Prover 是美团龙猫团队在 LongCat-Flash 模型系列基础上专门研发的“原生形式化推理”模型。

主要目标：在 Lean4 形式化证明语言环境下，提升 AI 的原生形式化推理能力（Native Formal Reasoning），实现“读懂题目-构思思路-自动形式化-生成形式化证明”的完整闭环。
解决痛点：传统 AI 在数学证明任务中往往依赖“思维链”或“中间步骤”，但在真正的形式化证明（如定理机验证）中仍存在高比例的“幻觉”或逻辑错误。Flash-Prover 通过模型结构和训练策略的创新，显著降低了这种幻觉现象，提升了验证的通过率。

参数规模：模型拥有 5677 亿参数，采用 Mixture-of-Experts (MoE) 架构。这意味着在实际推理时，模型会动态激活子网络（专家），大幅提升了推理效率。
架构创新：
- 混合专家迭代框架 (Hybrid-Experts Iteration Framework)：通过多阶段的训练过程，模型能够生成大规模、高质量的形式化推理轨迹，特别是在长链式思考（Long Chain-of-Thought）任务中表现出色。
- AST 验证流程：模型生成的推理轨迹会经过抽象语法树（AST）层面的多阶段严格验证，确保逻辑的严密性，极大地消除了“幻觉”现象。

LongCat-Flash-Prover 引入了 Hierarchical Importance Sampling Policy Optimization (HisPO) 算法。

核心功能：在强化学习（RL）阶段，HisPO 通过分层重要性采样的策略优化方法，解决了 MoE 模型在长程任务训练中的不稳定性问题。
奖励机制：引入了定理一致性和合法性检测机制，防止模型通过“作弊”（Reward Hacking）来获得高分，从而确保模型的训练奖励真实反映了证明的正确性。

任务分解能力：模型将原生形式化推理任务分解为三个独立的子能力：
1. 自动形式化 (Auto-Formalization)：将非形式化的数学题目转换为 Lean4 代码或公式。
2. 草图 (Sketching)：生成证明的大纲或引理（Lemma）结构。
3. 证明 (Proving)：生成完整的形式化证明代码。
推理效率：相比于传统的“自回归”推理方式（一个词一个词生成），Flash-Prover 在代码层面的推理效率更高，并通过了高效的验证流程，确保输出结果的可验证性。

LongCat-Flash-Prover 在多个权威数学证明基准测试中刷新了记录，展现了极强的竞争力：

MiniF2F-Test (几何与代数基准)：
- 通过率：刷新至 97.1% 的成绩。
- 推理次数：仅需 72次 推理尝试即可解决问题，展示了极高的推理效率。
PutnamBench (难度更高的大学生定理证明)：
- 解决率：在复杂度极高的 PutnamBench 任务中解决了 41.5% 的问题。
- 推理次数：使用了 118次 推理尝试，显示了在高难度任务中的稳定性。
ProverBench (复杂定理集)：
- 通过率：在更具挑战性的 ProverBench 基准上达到了 70.8% 的通过率。
其他基准：
- 在 AIME-25、HMMT-25、IMO-AnswerBench 等多个国际数学竞赛基准测试中，Flash-Prover 的表现均保持在领先水平。

开源地址：模型代码、权重以及训练脚本已在 GitHub 上开源，归属于美团 LongCat 组织。
行业意义：
- 标志性突破：LongCat-Flash-Prover 标志着 AI 在垂直专业领域（尤其是高阶逻辑推理）取得了显著突破，不仅在“通用推理”上保持竞争力，更在“形式化逻辑”这一极难领域达到了 SOTA 水平。
- 推动学术：模型的开源为数学逻辑、形式化验证以及 AI 与数学交叉研究提供了强大的工具支持，预示着未来 AI 将在更高阶的人类认知任务中发挥关键作用。

总的来说，LongCat-Flash-Prover 通过创新的混合专家架构、强化学习算法和严格的验证流程，成功解决了 AI 进行高质量形式化数学证明的难题，堪称是当前公开可用的“数学 AI”领域的巅峰之作。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！