MRC(Multipath Reliable Connection)协议详解
一、协议概述
MRC(Multipath Reliable Connection,多路径可靠连接) 是一种新型开放网络协议,由OpenAI联合AMD、博通、英特尔、微软、英伟达五家科技巨头共同研发,于2026年5月6日通过开放计算项目(OCP) 向全行业发布。
该协议旨在解决大规模AI训练集群中面临的网络延迟、拥塞和故障问题,通过多路径传输机制提升网络性能与可靠性。
二、技术背景与研发动因
大规模同步预训练(synchronous pretraining)的AI模型对网络极度敏感,单一数据传输延迟可能导致整个训练进程中断,造成GPU闲置浪费。主要挑战包括:
| 问题类型 | 描述 |
|---|---|
| 网络拥塞 | 集群规模越大,拥塞发生频率越高 |
| 链路故障 | 物理链路或设备故障导致数据包丢失 |
| 延迟抖动 | 数据包到达时间不一致影响训练效率 |
| 扩展性不足 | 传统网络架构难以支持超大规模集群 |
为应对这些挑战,OpenAI团队与行业伙伴合作两年时间,最终开发出MRC协议。
三、核心技术原理
1. 基于RoCE标准的扩展
MRC扩展了基于融合以太网的RDMA(RoCE) 协议,这是InfiniBand贸易协会(IBTA)的标准,支持GPU和CPU之间硬件加速的远程直接内存访问。
2. SRv6源路由技术
MRC采用SRv6(Segment Routing IPv6) 源路由技术,核心优势包括:
- 发送端直接指定数据包路径,而非依赖动态路由协议
- 交换机仅需依据静态配置表转发,无需复杂路由计算
- 消除了动态路由的故障行为,使网络故障恢复时间从秒级缩短至微秒级
- 简化网络控制平面,提高系统稳定性
3. 多平面网络架构
MRC采用创新的多平面网络设计:
- 将单个800Gb/s网络接口拆分为多条子链路
- 提升网络冗余度和路径多样性
- 降低网络成本与功耗
- 提高带宽利用率
4. 自适应数据包散射机制
- 将单个传输分散到数百条物理路径上进行并行传输
- 通过智能算法动态分配数据流,确保每条链路负载最优
- 实现微秒级的故障检测与自动绕行
- 即使数据包乱序到达,接收端也能依据内存地址正确重组
5. 拥塞控制与负载均衡
- 引入自适应数据包喷淋技术,分散数据包至多路径传输
- 避免核心节点拥塞,降低丢包率
- 实现链路级负载均衡
四、关键性能指标
根据实际部署数据,MRC协议展现出以下性能优势:
| 性能指标 | 提升幅度 |
|---|---|
| 端到端延迟 | 降低约40% |
| 单节点带宽 | 提升至传统方案的2.5倍 |
| 故障恢复时间 | 从秒级缩短至微秒级 |
| 容错能力 | 达99.999% |
| 丢包率 | 显著降低 |
五、部署现状
MRC协议已全面部署于以下超级计算机集群:
这些设施均用于训练OpenAI的前沿AI模型,验证了MRC在真实训练场景中的可靠性。
六、架构对比
| 特性 | 传统网络架构 | MRC协议 |
|---|---|---|
| 路由机制 | 动态路由协议(如BGP) | SRv6源路由 + 静态路由表 |
| 故障恢复 | 秒级 | 微秒级 |
| 路径多样性 | 有限 | 数百条路径 |
| 控制平面 | 复杂 | 简化 |
| 扩展性 | 受限 | 高度可扩展 |
七、行业意义
MRC协议的发布标志着AI基础设施向标准化、高效化方向发展:
- 降低GPU闲置时间,提升计算效率
- 标准化网络架构,便于行业推广
- 提升超算集群的算力利用率,减少能源浪费
- 推动开放计算生态系统发展,OCP向全行业开源协议规范
八、技术总结
MRC协议通过以下创新实现了高性能与高可靠性:
┌─────────────────────────────────────────────────────────┐
│ MRC 技术核心 │
├─────────────────────────────────────────────────────────┤
│ • 基于RoCE标准扩展 + SRv6源路由技术 │
│ • 多平面网络架构(单接口→多子链路) │
│ • 自适应数据包散射与多路径并行传输 │
│ • 微秒级故障检测与自动绕行 │
│ • 静态路由表简化网络控制平面 │
│ • 面向AI训练场景优化的协议栈 │
└─────────────────────────────────────────────────────────┘
这一协议为超大规模AI训练提供了更高效、稳定的网络支持,有望成为未来AI基础设施的标准组件
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!