Moonshot AI携手清华大学发布PrfaaS架构：破解大模型算力瓶颈

AI资讯 2个月前硕雀

27 0 0

Moonshot AI携手清华大学发布PrfaaS架构：破解大模型算力瓶颈

一、什么是PrfaaS架构

PrfaaS 全称 Prefill-as-a-Service（预填充即服务）‍，是月之暗面（Moonshot AI）与清华大学联合发布的大模型推理架构创新方案。

该架构于2026年4月正式发表研究论文，旨在解决大模型推理中面临的算力瓶颈问题。

二、核心技术原理

PrfaaS架构采用了以下关键技术创新：

选择性卸载机制：将长上下文预填充（Prefill）任务选择性卸载到独立的、计算密集的预填充集群
商用网络传输：生成的KVCache通过商用以太网传输到本地PD集群进行解码
系统协同设计：结合了模型侧的KV效率优化与系统侧的选择性卸载、带宽感知调度、缓存感知请求放置

三、解决的问题

传统大模型推理架构存在以下瓶颈：

问题	传统方案	PrfaaS方案
网络限制	需要低延迟RDMA fabric	支持商用以太网传输
扩展性	异构加速器必须共享低延迟网络	支持跨地域、跨异构集群调度
资源弹性	预填充和解码紧密耦合	可独立扩展容量
部署成本	高门槛、高成本	降低算力部署门槛

四、性能表现

在一项基于内部1T参数混合模型的研究案例中，PrfaaS增强的异构部署表现如下：

相比同构PD基准：推理吞吐量提升54%
相比朴素异构基准：推理吞吐量提升32%
同时：仅消耗适度的跨数据中心带宽

五、与Mooncake的关系

PrfaaS是月之暗面与清华大学合作的另一项重要推理架构成果。此前，双方还曾联合发布Mooncake推理架构，两者技术方向各有侧重：

Mooncake：以KVCache为中心，通过"以存换算"理念减少算力开销，已于2023年11月开源
PrfaaS：更专注于跨数据中心的PD（Prefill-Decode）分离架构，解决更大规模的推理成本、吞吐与上下文困局

六、行业意义

打破算力成本瓶颈：让大模型推理更加高效、经济
支持国产算力发展：通过模型端优化推动国产算力加速发展
促进AI Agent时代到来：Token需求的非线性增长将带来超预期算力需求，PrfaaS等架构为未来AI Agent时代奠定了基础
开源推动生态建设：月之暗面坚持开源策略，为科研界和产业界提供高性能推理基础设施

七、月之暗面技术生态概览

项目	发布时间	主要功能
Kimi Chat	2023年10月	支持20万字输入长度的智能助手
Mooncake	2023年11月	KVCache为中心的大模型推理架构
Kimi K2	2025年7月	1T参数MoE架构自主代理模型
PrfaaS	2026年4月	跨数据中心预填充即服务架构
Moonlight-16B-A3B	2025年12月	训练效率翻倍的大语言模型

Moonshot AI作为中国AI领域的重要参与者，持续与清华大学等学术机构合作，在长文本处理、推理架构优化等关键技术领域取得突破，为国产大模型技术发展贡献了重要力量。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！