一、协议发布背景
2026年5月6日,OpenAI联合AMD、博通、英特尔、微软和英伟达等5大科技巨头,正式发布了多路径可靠连接协议(MRC,Multipath Reliable Connection),并通过OCP(开放计算项目)向全行业开源开放。
该协议是OpenAI历时两年研发的成果,旨在解决大规模AI训练中面临的关键网络瓶颈问题。
二、核心痛点与目标
大规模AI训练集群面临以下挑战:
- 网络拥塞导致训练效率下降
- 链路和设备故障引发训练中断
- GPU闲置浪费,造成算力损失和能源浪费
- 传统网络方案在万卡级GPU集群中扩展性不足
MRC协议的核心目标是显著降低故障恢复时间,提升网络通信的稳定性和可靠性,确保超大规模AI训练的连续性。
三、技术原理
1. 多平面网络拓扑
将单条800Gb/s的网络接口拆分为多条独立链路,例如将一个接口连接至8台不同交换机,构建8条并行的100Gb/s网络路径,大幅提升带宽和冗余能力。
2. 自适应数据包喷淋技术
采用动态流量调度机制,将数据包分散到多条传输路径上,有效避免网络拥塞,提升整体吞吐量。
3. SRv6源路由技术
摒弃传统的动态路由协议,采用SRv6(Segment Routing over IPv6)静态源路由方案,简化网络控制逻辑,将故障恢复时间缩短至微秒级别。
四、实际部署与效果
MRC协议已全面部署于OpenAI的大型AI训练超算系统中,包括:
部署结果显示:
- 自动绕过故障节点,保障训练任务不中断
- 大幅降低GPU闲置率和网络丢包影响
- 提升整体训练效率,减少能源消耗
五、行业影响
通过OCP向行业开放后,MRC协议有望成为AI超算平台的重要基础标准,为全行业的万卡级AI训练集群提供低延迟、高可靠、易扩展的网络解决方案。
该合作体现了AI大模型厂商与硬件/云服务巨头之间更深层次的协同创新,推动AI基础设施从专用化向标准化、开放化演进。
总的来说,MRC协议是OpenAI针对超大规模AI训练网络通信瓶颈提出的创新性解决方案,通过与行业巨头的深度合作,为整个AI产业的基础设施建设提供了重要参考。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!