Moonshot AI携手清华大学发布PrfaaS架构:破解大模型算力瓶颈
一、什么是PrfaaS架构
PrfaaS 全称 Prefill-as-a-Service(预填充即服务),是月之暗面(Moonshot AI)与清华大学联合发布的大模型推理架构创新方案。
该架构于2026年4月正式发表研究论文,旨在解决大模型推理中面临的算力瓶颈问题。
二、核心技术原理
PrfaaS架构采用了以下关键技术创新:
- 选择性卸载机制:将长上下文预填充(Prefill)任务选择性卸载到独立的、计算密集的预填充集群
- 商用网络传输:生成的KVCache通过商用以太网传输到本地PD集群进行解码
- 系统协同设计:结合了模型侧的KV效率优化与系统侧的选择性卸载、带宽感知调度、缓存感知请求放置
三、解决的问题
传统大模型推理架构存在以下瓶颈:
| 问题 | 传统方案 | PrfaaS方案 |
|---|---|---|
| 网络限制 | 需要低延迟RDMA fabric | 支持商用以太网传输 |
| 扩展性 | 异构加速器必须共享低延迟网络 | 支持跨地域、跨异构集群调度 |
| 资源弹性 | 预填充和解码紧密耦合 | 可独立扩展容量 |
| 部署成本 | 高门槛、高成本 | 降低算力部署门槛 |
四、性能表现
在一项基于内部1T参数混合模型的研究案例中,PrfaaS增强的异构部署表现如下:
- 相比同构PD基准:推理吞吐量提升54%
- 相比朴素异构基准:推理吞吐量提升32%
- 同时:仅消耗适度的跨数据中心带宽
五、与Mooncake的关系
PrfaaS是月之暗面与清华大学合作的另一项重要推理架构成果。此前,双方还曾联合发布Mooncake推理架构,两者技术方向各有侧重:
- Mooncake:以KVCache为中心,通过"以存换算"理念减少算力开销,已于2023年11月开源
- PrfaaS:更专注于跨数据中心的PD(Prefill-Decode)分离架构,解决更大规模的推理成本、吞吐与上下文困局
六、行业意义
- 打破算力成本瓶颈:让大模型推理更加高效、经济
- 支持国产算力发展:通过模型端优化推动国产算力加速发展
- 促进AI Agent时代到来:Token需求的非线性增长将带来超预期算力需求,PrfaaS等架构为未来AI Agent时代奠定了基础
- 开源推动生态建设:月之暗面坚持开源策略,为科研界和产业界提供高性能推理基础设施
七、月之暗面技术生态概览
| 项目 | 发布时间 | 主要功能 |
|---|---|---|
| Kimi Chat | 2023年10月 | 支持20万字输入长度的智能助手 |
| Mooncake | 2023年11月 | KVCache为中心的大模型推理架构 |
| Kimi K2 | 2025年7月 | 1T参数MoE架构自主代理模型 |
| PrfaaS | 2026年4月 | 跨数据中心预填充即服务架构 |
| Moonlight-16B-A3B | 2025年12月 | 训练效率翻倍的大语言模型 |
Moonshot AI作为中国AI领域的重要参与者,持续与清华大学等学术机构合作,在长文本处理、推理架构优化等关键技术领域取得突破,为国产大模型技术发展贡献了重要力量。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!