本文共 1265 字,大约阅读时间需要 4 分钟。
本文提出了一种基于层的可重构硬件架构,用于加速深度学习中的卷积神经网络(CNN)。该架构通过动态重配置层参数,适应不同CNN网络架构需求。实验结果表明,该硬件架构能显著降低带宽利用率,并在Tiny-YOLO V2等网络上实现了高效运行。
题目
Reconfigurable Hardware Architecture Design and Implementation for AI Deep Learning Accelerator时间
2020.10来源
Global Conference on Consumer Electronics (GCCE)简介
深度学习在数据分类和目标检测领域展现出显著优势,但计算复杂度较高。本文提出了一种基于层的CNN硬件加速器架构,可通过重新配置层参数适应不同CNN架构需求。论文主要贡献
目标检测是深度学习的重要应用领域,主要任务是从图片或视频中检测感兴趣物体及其位置和大小。目标检测方法主要分为一阶段(one-stage)和二阶段(two-stage)两种:
一阶段方法
二阶段方法
Tiny-YOLO V2是一种用于物体检测的实时神经网络,支持20个不同类别。其网络结构由9个卷积层和6个最大池化层组成,输入特征映射为416x416x3,输出特征映射为13x13x125。
系统架构图展示了硬件加速器的整体框架,包括DRAM、系统控件、全局缓冲和PE(Processing Element)等核心组件。
在输入图像和权重经DRAM、系统控件、全局缓冲和PE处理后,有两种主要方式降低带宽利用率:
情况一:下一层为卷积层
情况二:下一层为最大池化层
实验表明,可重构人工智能加速器硬件架构在CNN运行中发挥了重要作用。针对Tiny-YOLO V2,带宽利用率降低了24%,充分验证了硬件架构的有效性。
转载地址:http://pgybz.baihongyu.com/