1. 项目概述:一场正在发生的网络底层革命
最近,一个由多家芯片巨头组成的联盟,正在悄然推动一场针对以太网技术的深度改革。这个项目的核心目标,直指一个在当今数据中心和人工智能领域日益凸显的痛点:如何构建一个更高效、更开放、成本更优的AI计算网络,以摆脱对单一供应商(尤其是英伟达)在高速互联技术上的绝对依赖。这不仅仅是技术路线的竞争,更是一场关于未来计算基础设施话语权的争夺。对于任何从事云计算、数据中心运维、AI基础设施研发,甚至是关注硬件投资趋势的朋友来说,理解这场“改革以太网”的运动,都至关重要。它关乎未来几年我们构建和运营大规模算力集群的成本、效率和灵活性。
简单来说,这个项目可以理解为:一群顶尖的“建筑师”和“建材商”聚在一起,决定重新设计一套更通用、更便宜的“高速公路”建设标准,以替代当前某一家公司主导的、虽然性能卓越但价格昂贵的“专用高速铁路”。这场改革的核心,是让以太网——这个已经服务了我们几十年的、最普遍的网络协议——具备直接承载高性能计算和人工智能训练所产生的海量数据流的能力,从而在InfiniBand技术主导的高性能网络市场撕开一道口子。
2. 核心需求与背景解析:为什么是现在?为什么要改革?
2.1 AI算力爆发下的网络瓶颈
人工智能,特别是大语言模型的训练,已经从“有多少块GPU”的单点算力竞赛,演变为“如何将成千上万块GPU高效连接起来”的系统工程竞赛。模型参数动辄千亿、万亿,训练数据更是海量,GPU之间需要频繁地交换中间计算结果(梯度、激活值)。这个数据交换的带宽和延迟,直接决定了整个集群的算力利用率。
目前,在这个顶级赛场,英伟达的InfiniBand网络几乎是唯一的选择。其凭借超低的延迟和极高的吞吐量,与自家的GPU、CUDA生态深度绑定,构成了一个近乎封闭但极其高效的“垂直整合”王国。然而,这种“一站式解决方案”带来的问题是显著的: 成本高昂、生态封闭、供应商锁定风险 。对于大型云服务商和追求成本效益的AI公司来说,这成了一笔难以承受的支出和一项战略风险。
2.2 以太网的“先天不足”与改造空间
与此同时,以太网无处不在。它便宜、开放、拥有最庞大的生态系统和运维人才储备。但传统的以太网是为“尽力而为”的互联网通信设计的,它在面对AI训练所需的“确定性的低延迟和零丢包”要求时,显得力不从心。主要问题在于:
- 拥塞控制与丢包 :传统TCP/IP协议栈在遇到网络拥堵时会丢包,然后重传。对于AI训练,一次丢包可能导致整个计算任务等待,严重拖慢效率。
- 延迟不可预测 :数据包在交换机中的排队、调度存在不确定性,导致延迟抖动大,不利于同步并行计算。
- 协议栈开销大 :从用户态到网卡驱动再到协议栈处理,路径长,软件开销大,难以实现微秒级甚至更低的延迟。
因此,改革的核心需求就明确了: 保留以太网经济性和开放性的同时,通过一系列技术创新,让它具备媲美甚至超越专用网络(如InfiniBand)的性能,尤其是低延迟、高吞吐和无损特性 。
2.3 联盟的动机:打破垄断与开辟新市场
参与此次改革的芯片巨头(如AMD、英特尔、博通等)各有算盘,但目标一致:
- AMD :其Instinct MI系列GPU需要一套强大的网络来与英伟达竞争,直接采用InfiniBand等于为对手做嫁衣,推动开放以太网标准是其构建自主生态的关键一环。


875


被折叠的 条评论
为什么被折叠?



