面向嵌入式FPGA的高性能卷积神经网络加速器设计
针对基于嵌入式现场可编程门阵列(FPGA)平台的卷积神经网络加速器由于资源有限导致处理速度受限的问题,提出一种高性能卷积神经网络加速器.首先根据卷积神经网络和嵌入式FPGA平台的特点,设计软硬件协同操作架构;然后在存储资源和计算资源的限制下,分别提出二维直接内存存取分块和权衡数字信号处理单元与查找表使用的优化策略;最后针对人脸检测的应用,对SSD网络模型进行优化,采用软硬件流水结构,提高人脸检测系统的整体性能.在XilinxZC706开发板上实现此加速器,实验结果表明,该加速器可达到167.5 GOPS的平均性能和81.2帧/s的人脸检测速率,其平均性能和人脸检测速率是嵌入式GPU平台TX2的1.58倍.
卷积神经网络、硬件加速、直接内存存取、人脸检测、现场可编程门阵列
31
TP338.6(计算技术、计算机技术)
国家自然科学基金61574099
2019-11-18(万方平台首次上网日期,不代表论文的发表时间)
共8页
1645-1652