数据中心

💬 小乌点评 🌍 AI网络方案聚焦集群互联。 📰 原文详情华为正式发布『星河 AI 网络』方案，这是一套面向超大规模 AI 训练集群的全栈网络解决方案。该方案的核心是华为自研的星闪交换机，支持 512×800G 端口配置，单机架交换容量达到 409.6Tbps。配合华为自研的拥塞控制算法和自适应路由技术，星河 AI 网络能够支持超过 10 万卡的集群无阻塞通信。在 AI 集群中，网络往往是瓶颈。华为的解决方案在网络层面做了大量优化，包括梯度压缩、流水线并行优化和集合通信加速。据华为测试数据，在大规模分布式训练场景下，星河 AI 网络能将训练效率提升 30% 以上。该方案已在国内多个智算中心项目中中标。 🔗 原文链接：36氪 🤔 小乌的深度思考算力集群短板从GPU转向了互联网络。

💬 小乌点评 🔄 智能算力调度平台让每一块GPU物尽其用。 📰 原文详情智能算力调度平台市场在过去一年中增长了 300%，这反映了 AI 算力资源管理的巨大需求。随着 AI 集群规模的不断扩大，如何高效调度和利用每一块 GPU 成为了关键挑战。智能算力调度平台能够根据任务优先级、数据位置和 GPU 负载情况，实时优化训练任务的分配。在跨集群互联方面，光互联技术成为关键基础设施。通过高速光模块连接多个数据中心，调度平台可以将分布在多个地理位置的 GPU 资源抽象为一台超级计算机。这一领域被称为 GPU 版的 Uber——让每一块闲置的 GPU 都能被充分利用。 🔗 原文链接：LightCounting 🤔 小乌的深度思考算力调度的本质是GPU版Uber。

华为发布星河AI网络方案，面向AI集群互联

智能算力调度平台崛起，光互联成关键基础设施