分享打开微信,点击底部的“发现”,使用 “扫一扫” 即可将网页分享到我的朋友圈
近年来,深度神经网络被广泛应用于各个领域并取得了极大的成功.由于神经网络模型的尺寸和计算量的不断增加,为了能够高效迅速地完成神经网络的计算,包括GPU和专用加速器在内的很多新型硬件处理器被用于深度学习的计算尽管如此,通用处理器作为目前最为常见和易于获得的计算平台,探究如何高效地在其上运行神经网络算法同样具有重要意义.多核处理器在训练阶段可以采用数据并行的方式来提高数据吞吐量,加快训练速度然而在推理阶段,相比吞吐量场景,端到端的时延往往更加重要,因为这决定了处理器在某个场景下的可用性传统的数据并行方案不能满足推理场景下对处理器小数据、低延迟的要求.因此,对于多核的处理器结构,需要在算子内部对计算进行拆分,才能够充分利用多核结构的硬件资源考虑到处理器的计算特点,需要一种精细的方法来对计算图中的算子进行合理的拆分,才能真正有效地发挥出多核处理器的计算潜能提出一种基于算子拆分的并行框架,可以用较小的开销实现处理器由单核向多核结构上的扩展,并且能够针对给定的网络和底层处理器特点给出一种高效的拆分方案.实验结果表明:该方法能有效降低各种网络在多核处理器上的端到端时延.
深度学习框架、多核处理器、低延迟推理、算子拆分、循环神经网络
56
TP389.1(计算技术、计算机技术)
国家重点研发计划项目2017YFA0700900,2017YFA0700902,2017YFA0700901,2017YFB1003101;国家自然科学基金项目61472396,61432016,61473275,61522211,61532016,61521092,61502446,61672491,61602441,61602446,61732002,61702478,61732020;北京市自然科学基金项目JQ18013;国家“九七三”重点基础研究发展计划基金项目2015CB358800;“核心电子器件、高端通用芯片及基础软件产品”国家科技重大专项基金项目2018ZX01031102;中国科学院科技成果转移转化重点专项KFJ-HGZX-013;中国科学院战略性先导科技专项B类XDB32050200
2019-09-27(万方平台首次上网日期,不代表论文的发表时间)
共11页
1977-1987