深度学习的计算本质上是多维矩阵,即张量(tensor)的计算。目前有很多公司在设计面向深度学习张量计算的芯片。传统的指令级别并行的CPU是非常通用的一种体系结构,但是做张量计算的效率非常低。GPU采用线程级别并行,通过线程切换来平衡计算资源和内存带宽之间的矛盾,从而实现通用的大规模并行计算。虽然用GPU做张量计算的效率远高于CPU,但是其效率依然不理想。因此,对于专用张量计算需要采用与CPU和GPU不同的体系结构。
此文由 怡心湖 编辑,若您觉得有益,欢迎分享转发!:首页 > 常识论 » Systolic阵列成为云端深度学习芯片的主流架构