什么是多路径可靠连接(MRC)协议

MRC(Multipath Reliable Connection)协议详解

一、协议概述

MRC(Multipath Reliable Connection,多路径可靠连接)‍ 是一种新型开放网络协议,由OpenAI联合AMD、博通、英特尔、微软、英伟达五家科技巨头共同研发,于2026年5月6日通过开放计算项目(OCP)‍ 向全行业发布。

该协议旨在解决大规模AI训练集群中面临的网络延迟、拥塞和故障问题,通过多路径传输机制提升网络性能与可靠性。


二、技术背景与研发动因

大规模同步预训练(synchronous pretraining)的AI模型对网络极度敏感,单一数据传输延迟可能导致整个训练进程中断,造成GPU闲置浪费。主要挑战包括:

问题类型 描述
网络拥塞 集群规模越大,拥塞发生频率越高
链路故障 物理链路或设备故障导致数据包丢失
延迟抖动 数据包到达时间不一致影响训练效率
扩展性不足 传统网络架构难以支持超大规模集群

为应对这些挑战,OpenAI团队与行业伙伴合作两年时间,最终开发出MRC协议


三、核心技术原理

1. 基于RoCE标准的扩展

MRC扩展了基于融合以太网的RDMA(RoCE)‍ 协议,这是InfiniBand贸易协会(IBTA)的标准,支持GPU和CPU之间硬件加速的远程直接内存访问

2. SRv6源路由技术

MRC采用SRv6(Segment Routing IPv6‍ 源路由技术,核心优势包括:

  • 发送端直接指定数据包路径,而非依赖动态路由协议
  • 交换机仅需依据静态配置表转发,无需复杂路由计算
  • 消除了动态路由的故障行为,使网络故障恢复时间从秒级缩短至微秒级
  • 简化网络控制平面,提高系统稳定性

3. 多平面网络架构

MRC采用创新的多平面网络设计:

  • 将单个800Gb/s网络接口拆分为多条子链路
  • 提升网络冗余度和路径多样性
  • 降低网络成本与功耗
  • 提高带宽利用率

4. 自适应数据包散射机制

  • 将单个传输分散到数百条物理路径上进行并行传输
  • 通过智能算法动态分配数据流,确保每条链路负载最优
  • 实现微秒级的故障检测与自动绕行
  • 即使数据包乱序到达,接收端也能依据内存地址正确重组

5. 拥塞控制与负载均衡

  • 引入自适应数据包喷淋技术,分散数据包至多路径传输
  • 避免核心节点拥塞,降低丢包率
  • 实现链路级负载均衡

四、关键性能指标

根据实际部署数据,MRC协议展现出以下性能优势:

性能指标 提升幅度
端到端延迟 降低约40%
单节点带宽 提升至传统方案的2.5倍
故障恢复时间 从秒级缩短至微秒级
容错能力 达99.999%
丢包率 显著降低

五、部署现状

MRC协议已全面部署于以下超级计算机集群

  1. 甲骨文云基础设施(OCI‍:位于美国得克萨斯州阿比林的站点
  2. 微软Fairwater超级计算机集群
  3. NVIDIA GB200超算集群

这些设施均用于训练OpenAI的前沿AI模型,验证了MRC在真实训练场景中的可靠性。


六、架构对比

特性 传统网络架构 MRC协议
路由机制 动态路由协议(如BGP) SRv6源路由 + 静态路由表
故障恢复 秒级 微秒级
路径多样性 有限 数百条路径
控制平面 复杂 简化
扩展性 受限 高度可扩展

七、行业意义

MRC协议的发布标志着AI基础设施标准化、高效化方向发展:

  1. 降低GPU闲置时间,提升计算效率
  2. 标准化网络架构,便于行业推广
  3. 提升超算集群的算力利用率,减少能源浪费
  4. 推动开放计算生态系统发展,OCP向全行业开源协议规范

八、技术总结

MRC协议通过以下创新实现了高性能与高可靠性:

┌─────────────────────────────────────────────────────────┐
│                    MRC 技术核心                           │
├─────────────────────────────────────────────────────────┤
│  • 基于RoCE标准扩展 + SRv6源路由技术                      │
│  • 多平面网络架构(单接口→多子链路)                       │
│  • 自适应数据包散射与多路径并行传输                        │
│  • 微秒级故障检测与自动绕行                              │
│  • 静态路由表简化网络控制平面                            │
│  • 面向AI训练场景优化的协议栈                            │
└─────────────────────────────────────────────────────────┘

这一协议为超大规模AI训练提供了更高效、稳定的网络支持,有望成为未来AI基础设施的标准组件

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!