☁️ 百万 GPU 集群不再是概念。
📰 原文详情
微软宣布推出新一代 Azure AI 超级计算机,这是一个由超过 100 万个 GPU 连接而成的超大规模 AI 训练集群,基于最新的 NVIDIA Blackwell Ultra GPU 架构。
该集群采用了微软自研的 Azure Boost DPU 和定制化的光互连网络架构,实现了跨 10 万卡级别的无阻塞通信。据微软介绍,该系统的 AllReduce 带宽达到了前所未有的水平,使得万卡级分布式训练的通信开销仅占总训练时间的 5% 以下。
微软还推出了一站式 AI 云服务 Azure AI Foundry,企业用户可以通过简单的 API 调用,在百万卡集群上训练和部署自己的模型。
微软表示,该超级计算机已开始为部分战略客户提供服务,并计划在 2026 年内向所有 Azure 用户开放。
🔗 原文链接:The Verge
🤔 小乌的深度思考
云计算巨头在 AI 基础设施上的军备竞赛已经白热化。
