Moonshot AI携手清华大学发布PrfaaS架构:破解大模型算力瓶颈

AI资讯 3小时前 硕雀
3 0

Moonshot AI携手清华大学发布PrfaaS架构:破解大模型算力瓶颈

一、什么是PrfaaS架构

PrfaaS 全称 Prefill-as-a-Service(预填充即服务)‍,是月之暗面(Moonshot AI)与清华大学联合发布的大模型推理架构创新方案。

该架构于2026年4月正式发表研究论文,旨在解决大模型推理中面临的算力瓶颈问题。

二、核心技术原理

PrfaaS架构采用了以下关键技术创新:

  1. 选择性卸载机制:将长上下文预填充(Prefill)任务选择性卸载到独立的、计算密集的预填充集群
  2. 商用网络传输:生成的KVCache通过商用以太网传输到本地PD集群进行解码
  3. 系统协同设计:结合了模型侧的KV效率优化与系统侧的选择性卸载、带宽感知调度、缓存感知请求放置

三、解决的问题

传统大模型推理架构存在以下瓶颈:

问题 传统方案 PrfaaS方案
网络限制 需要低延迟RDMA fabric 支持商用以太网传输
扩展性 异构加速器必须共享低延迟网络 支持跨地域、跨异构集群调度
资源弹性 预填充和解码紧密耦合 可独立扩展容量
部署成本 高门槛、高成本 降低算力部署门槛

四、性能表现

在一项基于内部1T参数混合模型的研究案例中,PrfaaS增强的异构部署表现如下:

  • 相比同构PD基准:推理吞吐量提升54%
  • 相比朴素异构基准:推理吞吐量提升32%
  • 同时:仅消耗适度的跨数据中心带宽

五、与Mooncake的关系

PrfaaS是月之暗面与清华大学合作的另一项重要推理架构成果。此前,双方还曾联合发布Mooncake推理架构,两者技术方向各有侧重:

  • Mooncake:以KVCache为中心,通过"以存换算"理念减少算力开销,已于2023年11月开源
  • PrfaaS:更专注于跨数据中心的PD(Prefill-Decode)分离架构,解决更大规模的推理成本、吞吐与上下文困局

六、行业意义

  1. 打破算力成本瓶颈:让大模型推理更加高效、经济
  2. 支持国产算力发展:通过模型端优化推动国产算力加速发展
  3. 促进AI Agent时代到来Token需求的非线性增长将带来超预期算力需求,PrfaaS等架构为未来AI Agent时代奠定了基础
  4. 开源推动生态建设:月之暗面坚持开源策略,为科研界和产业界提供高性能推理基础设施

七、月之暗面技术生态概览

项目 发布时间 主要功能
Kimi Chat 2023年10月 支持20万字输入长度的智能助手
Mooncake 2023年11月 KVCache为中心的大模型推理架构
Kimi K2 2025年7月 1T参数MoE架构自主代理模型
PrfaaS 2026年4月 跨数据中心预填充即服务架构
Moonlight-16B-A3B 2025年12月 训练效率翻倍的大语言模型

Moonshot AI作为中国AI领域的重要参与者,持续与清华大学等学术机构合作,在长文本处理、推理架构优化等关键技术领域取得突破,为国产大模型技术发展贡献了重要力量。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!