怡心湖

阿里巴巴EFLOPS服务器集群架构简介

EFLOPS服务器架构

传统服务器架构的瓶颈主要来自内部PCIe Fabric树形互连。首先,传统的数据中心服务器通常只配备一个网络接口(独立网卡或者Bond网卡),当该服务器配备多个加速部件(比如GPU)并通过网络接口并发传输数据时,就会面临很大的流量汇聚,使其成为系统的瓶颈。而这种同步式的网络访问,在分布式AI训练任务中非常常见。AI训练的数据集一般被划分为多个批次,每个批次的数据处理完成之后,所有参与计算的NPU加速器都要进行梯度的同步。跨服务器的NPU梯度同步操作都要通过网络接口进行通信。这种周期性的同步式网络接口访问,势必导致网络接口上的拥塞。类似的端口拥塞还会发生在PCIe树形拓扑的跟节点处。分布式AI训练业务在每个批次的数据处理完成之后,会同步载入下一批次数据,导致内存的并发访问。

此文由 怡心湖 编辑,若您觉得有益,欢迎分享转发!:首页 > 常识论 » 阿里巴巴EFLOPS服务器集群架构简介

()
分享到:

相关推荐