以太網將擊敗InfiniBand，最終勝出？

如果您希望可以时常见面，欢迎标星收藏哦~

来源：内容由半导体行业观察（ID：icbank）编译自nextplatform，谢谢。

除了Nvidia 以外的几乎所有人都认为，从长远来看，大多数在任何可观规模（数百到数百万个数据中心设备）上运行大多数人工智能训练和推理工作负载的人都将需要比 InfiniBand 更便宜的网络人工智能加速器替代方案。

虽然 Nvidia 辩称 InfiniBand 仅占集群成本的 20%，但它将 AI 训练的性能提高了 20%，因此物有所值，但您仍然需要承担这 20% 的集群成本，这要比基于以太网的集群的正常值低10% 或更多。后者的进给量和速度（ feeds and speeds ），在纸面上和在实践中常常使其成为稍逊一筹的技术选择。

但是，在很大程度上要感谢超以太网联盟（ Ultra Ethernet Consortium），运行人工智能工作负载的以太网的几个问题将得到解决，我们认为这也将有助于促进传统 HPC 工作负载更多地采用以太网。远远超出了采用 Cray 设计的“Rosetta”以太网交换机和“Cassini”网络接口卡（包含 Hewlett Packard Enterprise 的 Slingshot 互连）的范围，并且不包括两年一度的“超级计算机”500 强排名的中间位置。高性能计算或人工智能并没有真正作为他们的日常工作，而是供应商和国家的宣传噱头。

关于以太网如何发展的讨论是 Arista Networks 最近一次与华尔街的电话会议中讨论的最重要的事情，该电话会议正在审查 3 月份结束的 2024 年第一季度的财务业绩。

正如我们之前报道的，Meta Platforms 正在构建两个集群，每个集群有 24,576 个 GPU，一个基于 Nvidia 的 400 Gb/秒 Quantum 2 InfiniBand（我们推测），另一个使用 Arista Network 的旗舰产品 400 Gb/秒 7800R3 AI Spine 构建（我们知道），这是一款多 ASIC 模块化交换机，聚合带宽为 460 Tb/秒，支持packet spraying（一项关键技术，使以太网更好地进行对 AI 和 HPC 至关重要的集体网络操作）。7830R3 主干交换机基于Broadcom 的 Jericho 2c+ ASIC，而不是经过 AI 调优的 Jericho 3AI 芯片——Broadcom 更直接针对 Nvidia 的 InfiniBand，但据我们所知，该芯片尚未批量出货。

Arista Networks 为 Meta Platforms 的以太网集群构建的互连还包括 Wedge 400C 和 Minipack2 网络机柜，它们符合 Meta Platforms 青睐的开放计算项目。（最初的 Wedge 400 基于 Broadcom 的 3.2 Tb/秒“Tomahawk 3”StrataXGS ASIC，而用作 AI 集群中机架顶部的 Wedge 400C 基于 Cisco Systems 的 12.8 Tb/秒 Silicon One ASIC。Minipack2基于 Broadcom 的 25.6 Tb/秒“Tomahawk 4”ASIC 看起来 Wedge 400C 和 Minipack2 用于服务器主机集群，7800R AI Spine 用于 GPU 集群，但 Meta Platforms 尚未透露细节。

Meta Platforms 是人工智能领域以太网的旗舰客户，微软也将如此。但其他人也在带头冲锋。Arista Networks 在二月份透露，它已经赢得了相当大的人工智能集群的设计。该公司联合创始人兼首席执行官 Jayshree Ullal 深入介绍了这些胜利如何转化为资金，以及如何帮助 Arista Networks 实现到 2025 年人工智能网络收入 7.5 亿美元的既定目标。

Ullal 在电话会议上提到 Meta Platforms 集群时说道，“这个集群可以解决复杂的人工智能训练任务，这些任务涉及跨数千个处理器的模型和数据并行化的混合，而事实证明，以太网可以将工作效率提高至少 10%与 InfiniBand 相比，所有数据包大小的完成性能。我们正在见证人工智能网络的变化，并预计这种变化将在今年和十年内持续下去。以太网正在成为前端和后端人工智能数据中心的关键基础设施。人工智能应用程序根本无法单独工作，需要由后端 GPU 和人工智能加速器组成的计算节点以及 CPU 和存储等前端节点之间进行无缝通信。”

完成时间提高 10% 是通过当前 Jericho 2c+ ASIC 作为网络骨干实现的，而不是 Jericho 3AI。

在稍后的电话会议中，Ullal 更详细地介绍了 InfiniBand 和以太网之间的情况，这是一个有用的观点。

“正如您所知，从历史上看，当您单独看待 InfiniBand 和以太网时，会发现每种技术都有很多优势，”她继续说道。“传统上，InfiniBand 被认为是无损的。并且以太网被认为具有一些损耗特性。然而，当您实际将完整的 GPU 集群以及光学器件和所有组件放在一起时，您会看到所有数据包大小的作业完成时间的一致性，数据显示 – 这是我们从第三方获得的数据， Broadcom 表示，在现实环境中的几乎所有数据包大小中，与这些技术相比，以太网的作业完成时间大约快 10%。因此，您可以在孤岛中查看这个东西，也可以在实际的集群中查看它。在实际集群中，我们已经看到以太网的改进。现在，不要忘记，这只是我们今天所知道的以太网。一旦我们有了超以太网联盟以及您将在packet spraying、dynamic load balancing 和congestion control方面看到的一些改进，我相信这些数字将会变得更好。”

然后 Ullal 谈到了 Arista Networks 在其参与的五项主要交易中与 InfiniBand 相比赢得的四项 AI 集群交易。（大概 InfiniBand 赢得了另一项交易。）

“在所有四种情况下，我们现在都从试验转向试点，今年连接了数千个 GPU，我们预计 2025 年产量将达到 10K 到 100K GPU，”Ullal 继续说道。“大规模以太网正在成为事实上的网络和横向扩展人工智能训练工作负载的首选。一个好的人工智能网络需要由高度差异化的EOS和网络数据湖架构提供良好的数据策略。因此，我们对于在 2025 年实现 7.5 亿美元的人工智能目标变得越来越有建设性。”

如果以太网的成本是原来的一半到三分之一，包括光纤、电缆、交换机和网络接口，并且可以更快地完成工作，从长远来看，对于给定数量的网络，具有更大的弹性和更大的规模网络层，InfiniBand 面临压力。如果像 Arista Networks 那样在相当大的 GPU 集群上五中四胜的比例具有代表性的话，那么它已经做到了。显然，引用这些数字的目的是让我们相信它具有代表性，但最终将由市场决定。

我们在二月份就说过这一点，现在我们还会再说一遍：我们认为 Arista Networks 低估了其预期，而华尔街似乎也同意这一点。该公司确实将 2024 年收入增长指引提高了两个百分点，达到 12% 到 14% 之间，我们认为对人工智能集群（最终可能是 HPC 集群）采用以太网的乐观情绪在这里发挥了作用。

但这里有一个有趣的数学问题：Arista Networks 在 AI 集群互连销售额中每赚取 7.5 亿美元，Nvidia 可能会损失 15 亿至 22.5 亿美元。在过去 12 个月中，我们估计 Nvidia 的 InfiniBand 网络销售额为 64.7 亿美元，而数据中心的 GPU 计算销售额为 397.8 亿美元。在 4 比 1 的外卖比例和稳定的市场情况下，Nvidia 可以保留约 13 亿美元，UEC 集体可以保留 17 至 26 亿美元，具体取决于以太网成本如何波动。乘以大约 1.8 倍，得到大约 860 亿美元，我们预计 Nvidia 在 2008 年的数据中心收入将达到 860 亿美元左右，如果一切保持不变，您会发现 InfiniBand 的销售目标更像是 120 亿美元。

UEC 成员有大量的市场份额可以窃取，但他们会通过从系统中消除收入来窃取市场份额，就像 Linux 对 Unix 所做的那样，而不是将收入从一种技术转换为另一种技术。节省下来的资金将重新投入 GPU 中。

与此同时，Arista 的季度业绩相当不错，没有什么真正的惊喜。产品销售额增长 13.4%，达到 13.3 亿美元，服务收入增长 35.3%，达到 2.425 亿美元。产品内的软件订阅为 2,300 万美元，因此年金类服务总额为 2.656 亿美元，同比增长 45.6%。总收入增长 16.3%，达到 15.7 亿美元。净利润增长 46.1%，达到 6.38 亿美元，Arista Networks 本季度拥有 54.5 亿美元现金，我们估计约有 10,000 名客户。我们认为 Arista 的数据中心收入约为 14.8 亿美元，该业务的运营收入约为 6.23 亿美元。这是我们关心的。当然，校园和边缘很有趣，我们希望它们能够发展并为 Arista Networks 和其他公司带来盈利。

如果您希望可以時常見面，歡迎標星收藏哦~

來源：內容由半導體行業觀察（ID：icbank）編譯自nextplatform，謝謝。

除了Nvidia 以外的幾乎所有人都認爲，從長遠來看，大多數在任何可觀規模（數百到數百萬個數據中心設備）上運行大多數人工智能訓練和推理工作負載的人都將需要比 InfiniBand 更便宜的網絡人工智能加速器替代方案。

雖然 Nvidia 辯稱 InfiniBand 僅佔集群成本的 20%，但它將 AI 訓練的性能提高了 20%，因此物有所值，但您仍然需要承擔這 20% 的集群成本，這要比基於以太網的集群的正常值低10% 或更多。後者的進給量和速度（ feeds and speeds ），在紙面上和在實踐中常常使其成爲稍遜一籌的技術選擇。

但是，在很大程度上要感謝超以太網聯盟（ Ultra Ethernet Consortium），運行人工智能工作負載的以太網的幾個問題將得到解決，我們認爲這也將有助於促進傳統 HPC 工作負載更多地採用以太網。遠遠超出了採用 Cray 設計的“Rosetta”以太網交換機和“Cassini”網絡接口卡（包含 Hewlett Packard Enterprise 的 Slingshot 互連）的範圍，並且不包括兩年一度的“超級計算機”500 強排名的中間位置。高性能計算或人工智能並沒有真正作爲他們的日常工作，而是供應商和國家的宣傳噱頭。

關於以太網如何發展的討論是 Arista Networks 最近一次與華爾街的電話會議中討論的最重要的事情，該電話會議正在審查 3 月份結束的 2024 年第一季度的財務業績。

正如我們之前報道的，Meta Platforms 正在構建兩個集群，每個集群有 24,576 個 GPU，一個基於 Nvidia 的 400 Gb/秒 Quantum 2 InfiniBand（我們推測），另一個使用 Arista Network 的旗艦產品 400 Gb/秒 7800R3 AI Spine 構建（我們知道），這是一款多 ASIC 模塊化交換機，聚合帶寬爲 460 Tb/秒，支持packet spraying（一項關鍵技術，使以太網更好地進行對 AI 和 HPC 至關重要的集體網絡操作）。7830R3 主幹交換機基於Broadcom 的 Jericho 2c+ ASIC，而不是經過 AI 調優的 Jericho 3AI 芯片——Broadcom 更直接針對 Nvidia 的 InfiniBand，但據我們所知，該芯片尚未批量出貨。

Arista Networks 爲 Meta Platforms 的以太網集群構建的互連還包括 Wedge 400C 和 Minipack2 網絡機櫃，它們符合 Meta Platforms 青睞的開放計算項目。（最初的 Wedge 400 基於 Broadcom 的 3.2 Tb/秒“Tomahawk 3”StrataXGS ASIC，而用作 AI 集群中機架頂部的 Wedge 400C 基於 Cisco Systems 的 12.8 Tb/秒 Silicon One ASIC。Minipack2基於 Broadcom 的 25.6 Tb/秒“Tomahawk 4”ASIC 看起來 Wedge 400C 和 Minipack2 用於服務器主機集群，7800R AI Spine 用於 GPU 集群，但 Meta Platforms 尚未透露細節。

Meta Platforms 是人工智能領域以太網的旗艦客戶，微軟也將如此。但其他人也在帶頭衝鋒。Arista Networks 在二月份透露，它已經贏得了相當大的人工智能集群的設計。該公司聯合創始人兼首席執行官 Jayshree Ullal 深入介紹了這些勝利如何轉化爲資金，以及如何幫助 Arista Networks 實現到 2025 年人工智能網絡收入 7.5 億美元的既定目標。

Ullal 在電話會議上提到 Meta Platforms 集群時說道，“這個集群可以解決複雜的人工智能訓練任務，這些任務涉及跨數千個處理器的模型和數據並行化的混合，而事實證明，以太網可以將工作效率提高至少 10%與 InfiniBand 相比，所有數據包大小的完成性能。我們正在見證人工智能網絡的變化，並預計這種變化將在今年和十年內持續下去。以太網正在成爲前端和後端人工智能數據中心的關鍵基礎設施。人工智能應用程序根本無法單獨工作，需要由後端 GPU 和人工智能加速器組成的計算節點以及 CPU 和存儲等前端節點之間進行無縫通信。”

完成時間提高 10% 是通過當前 Jericho 2c+ ASIC 作爲網絡骨幹實現的，而不是 Jericho 3AI。

在稍後的電話會議中，Ullal 更詳細地介紹了 InfiniBand 和以太網之間的情況，這是一個有用的觀點。

“正如您所知，從歷史上看，當您單獨看待 InfiniBand 和以太網時，會發現每種技術都有很多優勢，”她繼續說道。“傳統上，InfiniBand 被認爲是無損的。並且以太網被認爲具有一些損耗特性。然而，當您實際將完整的 GPU 集群以及光學器件和所有組件放在一起時，您會看到所有數據包大小的作業完成時間的一致性，數據顯示 – 這是我們從第三方獲得的數據， Broadcom 表示，在現實環境中的幾乎所有數據包大小中，與這些技術相比，以太網的作業完成時間大約快 10%。因此，您可以在孤島中查看這個東西，也可以在實際的集群中查看它。在實際集群中，我們已經看到以太網的改進。現在，不要忘記，這只是我們今天所知道的以太網。一旦我們有了超以太網聯盟以及您將在packet spraying、dynamic load balancing 和congestion control方面看到的一些改進，我相信這些數字將會變得更好。”

然後 Ullal 談到了 Arista Networks 在其參與的五項主要交易中與 InfiniBand 相比贏得的四項 AI 集群交易。（大概 InfiniBand 贏得了另一項交易。）

“在所有四種情況下，我們現在都從試驗轉向試點，今年連接了數千個 GPU，我們預計 2025 年產量將達到 10K 到 100K GPU，”Ullal 繼續說道。“大規模以太網正在成爲事實上的網絡和橫向擴展人工智能訓練工作負載的首選。一個好的人工智能網絡需要由高度差異化的EOS和網絡數據湖架構提供良好的數據策略。因此，我們對於在 2025 年實現 7.5 億美元的人工智能目標變得越來越有建設性。”

如果以太網的成本是原來的一半到三分之一，包括光纖、電纜、交換機和網絡接口，並且可以更快地完成工作，從長遠來看，對於給定數量的網絡，具有更大的彈性和更大的規模網絡層，InfiniBand 面臨壓力。如果像 Arista Networks 那樣在相當大的 GPU 集群上五中四勝的比例具有代表性的話，那麼它已經做到了。顯然，引用這些數字的目的是讓我們相信它具有代表性，但最終將由市場決定。

我們在二月份就說過這一點，現在我們還會再說一遍：我們認爲 Arista Networks 低估了其預期，而華爾街似乎也同意這一點。該公司確實將 2024 年收入增長指引提高了兩個百分點，達到 12% 到 14% 之間，我們認爲對人工智能集群（最終可能是 HPC 集群）採用以太網的樂觀情緒在這裏發揮了作用。

但這裏有一個有趣的數學問題：Arista Networks 在 AI 集群互連銷售額中每賺取 7.5 億美元，Nvidia 可能會損失 15 億至 22.5 億美元。在過去 12 個月中，我們估計 Nvidia 的 InfiniBand 網絡銷售額爲 64.7 億美元，而數據中心的 GPU 計算銷售額爲 397.8 億美元。在 4 比 1 的外賣比例和穩定的市場情況下，Nvidia 可以保留約 13 億美元，UEC 集體可以保留 17 至 26 億美元，具體取決於以太網成本如何波動。乘以大約 1.8 倍，得到大約 860 億美元，我們預計 Nvidia 在 2008 年的數據中心收入將達到 860 億美元左右，如果一切保持不變，您會發現 InfiniBand 的銷售目標更像是 120 億美元。

UEC 成員有大量的市場份額可以竊取，但他們會通過從系統中消除收入來竊取市場份額，就像 Linux 對 Unix 所做的那樣，而不是將收入從一種技術轉換爲另一種技術。節省下來的資金將重新投入 GPU 中。

與此同時，Arista 的季度業績相當不錯，沒有什麼真正的驚喜。產品銷售額增長 13.4%，達到 13.3 億美元，服務收入增長 35.3%，達到 2.425 億美元。產品內的軟件訂閱爲 2,300 萬美元，因此年金類服務總額爲 2.656 億美元，同比增長 45.6%。總收入增長 16.3%，達到 15.7 億美元。淨利潤增長 46.1%，達到 6.38 億美元，Arista Networks 本季度擁有 54.5 億美元現金，我們估計約有 10,000 名客戶。我們認爲 Arista 的數據中心收入約爲 14.8 億美元，該業務的運營收入約爲 6.23 億美元。這是我們關心的。當然，校園和邊緣很有趣，我們希望它們能夠發展併爲 Arista Networks 和其他公司帶來盈利。

声明：本內容僅用作提供資訊及教育之目的，不構成對任何特定投資或投資策略的推薦或認可。更多信息

以太网将击败InfiniBand，最终胜出？

以太網將擊敗InfiniBand，最終勝出？

風險及免責聲明

聲明