面向3D-CNN的算法压缩-硬件设计协同优化

引用

摘要：

近年来,三维卷积神经网络(3D-CNN)在计算机视频分类领域的优异表现使其受到了广泛关注.然而,相比于2D-CNN,3D-CNN显著增大的计算、存储需求不可避免地带来了部署时的性能与能效问题,严重限制了其在硬件资源受限场景下的适用性.为了应对该挑战,提出了一种面向3D-CNN高效部署的算法-硬件协同设计与优化方法3D FCirCNN.在算法优化层面,首次使用分块循环矩阵对3D-CNN进行压缩并且进一步通过快速傅里叶变换(fast Fourier transform,FFT)进行加速,在保证模型规则性的前提下显著降低了模型的计算和存储开销.在此基础上,引入了频域内的激活、批归一化以及池化操作,通过实现全频域推理有效消除了由于FFT所带来的时域/频域切换开销.在硬件设计层面,为分块循环矩阵压缩后的3D-CNN设计了一个专用的硬件加速架构,并作出了一系列面向硬件资源和内存带宽的优化.在Xilinx ZCU102 FPGA上的实验表明,相较于以往最先进的工作,3D FCirCNN在可接受的精度损失范围内(<2%)取得了16.68倍的性能提升和16.18倍的计算效率提升.

关键词：三维卷积神经网络、循环矩阵、全频域、现场可编程门阵列

所属期刊栏目：59

分类号：TP302.1(计算技术、计算机技术)

资助基金：国家电网公司总部科技项目5700-202119266A-0-0-00

在线出版日期：2023-09-28（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：74-83

英文信息展示

期刊专题