NVIDIA 的 Colossus:配备 100,000 个 Hopper GPU 的世界最大 AI 超级计算机
Brief news summary
NVIDIA 在孟菲斯推出了 xAI Colossus 超级计算机集群,现被公认为世界上最大的 AI 超级计算机,配备了 100,000 个 NVIDIA Hopper GPU。Colossus 针对超大规模 AI 应用进行了优化,利用 NVIDIA Spectrum-X™ 以太网网络,该网络结合标准以太网和远程直接内存访问 (RDMA) 技术。这个先进的超级计算机主要用于为 X Premium 订阅者的聊天机器人训练 Grok 大语言模型,并计划在未来扩大到 200,000 个 GPU。 Colossus 在令人印象深刻的 122 天内建造,功能卓越,具有零延迟、无数据包丢失和 95% 的数据吞吐量,显着超过标准以太网系统的典型 60% 性能。埃隆·马斯克 (Elon Musk) 赞扬了超级计算机对变革性影响的潜力,强调了 NVIDIA 在大规模 AI 模型训练中的关键作用。Spectrum-X 平台包含 SN5600 以太网交换机,速度高达 800 Gb/s,并具有对改进 AI 云操作至关重要的自适应路由功能。NVIDIA 在加速计算和 AI 进步方面保持领先地位,同时指出实际性能结果可能因不同市场和技术而异。NVIDIA 宣布,位于田纳西州孟菲斯的 xAI 的 Colossus 超级计算机集群使用 NVIDIA Spectrum-X™ 以太网网络平台实现了这种规模,该集群配备了 100, 000 个 NVIDIA Hopper GPU。该平台专为大型 AI 工厂的最佳性能而设计,利用基于标准的以太网及其远程直接内存访问 (RDMA) 网络。 Colossus 现已成为世界上最大的 AI 超级计算机,用于训练 xAI 的 Grok 大型语言模型家族,其中包括针对 X Premium 订阅者的聊天机器人。xAI计划将Colossus扩展到20万台Hopper GPU。 Colossus 在令人瞩目的 122 天内建成——比此类系统的典型时间缩短了许多——Colossus 在第一个机架安装后仅 19 天就开始训练。在广泛的 Grok 模型训练过程中,借助 Spectrum-X 拥塞控制,Colossus 体现了卓越的网络性能,保持了 95% 的吞吐量,并且没有应用程序延迟退化或数据包丢失。相比之下,标准以太网在流量冲突中表现不佳,数据吞吐量仅为 60%。 NVIDIA 网络业务高级副总裁 Gilad Shainer 强调了AI的关键性,对性能、安全性、可扩展性和成本效率提出了更高的要求,而Spectrum-X平台为xAI等创新者提供了这种支持。埃隆·马斯克 (Elon Musk) 称赞 Colossus 是“世界上功能最强大的训练系统”,认可 xAI 和 NVIDIA 的努力。 xAI 的一位发言人指出,NVIDIA 的 Hopper GPU 和 Spectrum-X 技术的结合可以前所未有地大规模训练 AI 模型。Spectrum-X 平台的核心是 Spectrum SN5600 以太网交换机,支持高达 800Gb/s 的速度,并与 NVIDIA 的 BlueField-3® SuperNIC 配对以增强性能。 Spectrum-X 以太网网络提供了以前仅与 InfiniBand 相关的高级功能,包括自适应路由、拥塞控制以及改进的多租户 AI 环境的可见性和性能。 NVIDIA 在加速计算方面处于领先地位,但关于其技术的收益和性能的前瞻性声明伴随着可能影响实际结果的风险。全球经济状况、对第三方的依赖以及技术竞争等因素可能会影响结果。NVIDIA 通过 SEC 文件定期提供更新。 © 2024 NVIDIA Corporation.
保留所有权利。
Watch video about
NVIDIA 的 Colossus:配备 100,000 个 Hopper GPU 的世界最大 AI 超级计算机
Try our premium solution and start getting clients — at no cost to you