分布式机器学习系统中的参数同步需要低延迟的网络传输协议。实现于内核协议栈的传统TCP协议在维护连接、拥塞控制以及协议栈实现等方面开销较大,不太适合用于分布式机器学习系统。为了解决TCP协议栈的问题,业界主要有两种思路:一是基于DPDK(Intel Data Plane Development Kit)技术把协议栈上浮到用户态来实现,从而降低内核实现的巨大开销;二是下沉到网卡硬件,采用RDMA(Remote Direct Memory Access)/RoCE协议来取代TCP。
此文由 怡心湖 编辑,若您觉得有益,欢迎分享转发!:首页 > 常识论 » 低延迟网络传输技术在分布式机器学习中的应用探讨