OpenAI携手硬件巨头发布MRC协议

AI资讯 2小时前 硕雀
2 0

一、协议发布背景

2026年5月6日,OpenAI联合AMD、博通、英特尔、微软和英伟达等5大科技巨头,正式发布了多路径可靠连接协议(MRC,Multipath Reliable Connection)‍,并通过OCP(开放计算项目)‍向全行业开源开放。

该协议是OpenAI历时两年研发的成果,旨在解决大规模AI训练中面临的关键网络瓶颈问题。

二、核心痛点与目标

大规模AI训练集群面临以下挑战:

  • 网络拥塞导致训练效率下降
  • 链路和设备故障引发训练中断
  • GPU闲置浪费,造成算力损失和能源浪费
  • 传统网络方案在万卡级GPU集群中扩展性不足

MRC协议的核心目标是显著降低故障恢复时间,提升网络通信的稳定性和可靠性,确保超大规模AI训练的连续性。

三、技术原理

1. 多平面网络拓扑

将单条800Gb/s的网络接口拆分为多条独立链路,例如将一个接口连接至8台不同交换机,构建8条并行的100Gb/s网络路径,大幅提升带宽和冗余能力。

2. 自适应数据包喷淋技术

采用动态流量调度机制,将数据包分散到多条传输路径上,有效避免网络拥塞,提升整体吞吐量。

3. SRv6源路由技术

摒弃传统的动态路由协议,采用SRv6(Segment Routing over IPv6)静态源路由方案,简化网络控制逻辑,将故障恢复时间缩短至微秒级别

四、实际部署与效果

MRC协议已全面部署于OpenAI的大型AI训练超算系统中,包括:

  • 美国得克萨斯州阿比林的甲骨文(Oracle)云基础设施站点
  • 微软的Fairwater超级计算机集群
  • 搭载NVIDIA GB200的超算集群

部署结果显示:

  • 自动绕过故障节点,保障训练任务不中断
  • 大幅降低GPU闲置率和网络丢包影响
  • 提升整体训练效率,减少能源消耗

五、行业影响

通过OCP向行业开放后,MRC协议有望成为AI超算平台的重要基础标准,为全行业的万卡级AI训练集群提供低延迟、高可靠、易扩展的网络解决方案。

该合作体现了AI大模型厂商与硬件/云服务巨头之间更深层次的协同创新,推动AI基础设施从专用化向标准化、开放化演进。


总的来说,MRC协议是OpenAI针对超大规模AI训练网络通信瓶颈提出的创新性解决方案,通过与行业巨头的深度合作,为整个AI产业的基础设施建设提供了重要参考。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!