博客
关于我
文献阅读(6):AI Deep Learning Accelerator
阅读量:486 次
发布时间:2019-03-06

本文共 1265 字,大约阅读时间需要 4 分钟。

深度学习硬件加速器设计与实现

摘要

本文提出了一种基于层的可重构硬件架构,用于加速深度学习中的卷积神经网络(CNN)。该架构通过动态重配置层参数,适应不同CNN网络架构需求。实验结果表明,该硬件架构能显著降低带宽利用率,并在Tiny-YOLO V2等网络上实现了高效运行。


目录

一、简介

  • 题目

    Reconfigurable Hardware Architecture Design and Implementation for AI Deep Learning Accelerator

  • 时间

    2020.10

  • 来源

    Global Conference on Consumer Electronics (GCCE)

  • 简介

    深度学习在数据分类和目标检测领域展现出显著优势,但计算复杂度较高。本文提出了一种基于层的CNN硬件加速器架构,可通过重新配置层参数适应不同CNN架构需求。

  • 论文主要贡献

    • 提出了基于层的操作模式
    • 实现了卷积和最大池化双重执行,提升数据重用率
    • 将最大池化操作移至全局缓冲,减少数据传输量

    二、相关名词

  • YOLO(You only look once),实时目标检测系统
  • R-CNN,深度学习目标检测算法
  • DRAM(Dynamic Random Access Memory),动态随机存取存储器
  • SRAM(Static Random-Access Memory),静态随机存取存储器

  • 三、相关背景知识

    1. 目标检测

    目标检测是深度学习的重要应用领域,主要任务是从图片或视频中检测感兴趣物体及其位置和大小。目标检测方法主要分为一阶段(one-stage)和二阶段(two-stage)两种:

    • 一阶段方法

      • 速度较快,直接在网络中提取特征并预测物体边界框
      • 典型算法:YOLOv1~v7、SSD
    • 二阶段方法

      • 准确性更高,但速度较慢
      • 典型算法:R-CNN、Faster R-CNN
      • 工作流程:通过生成候选框(region proposals)并对其进行分类

    2. Tiny-YOLO V2

    Tiny-YOLO V2是一种用于物体检测的实时神经网络,支持20个不同类别。其网络结构由9个卷积层和6个最大池化层组成,输入特征映射为416x416x3,输出特征映射为13x13x125。


    四、处理流程概述

    1. 系统架构图

    系统架构图展示了硬件加速器的整体框架,包括DRAM、系统控件、全局缓冲和PE(Processing Element)等核心组件。

    2. 降低带宽利用率的两种情况

    在输入图像和权重经DRAM、系统控件、全局缓冲和PE处理后,有两种主要方式降低带宽利用率:

    • 情况一:下一层为卷积层

      • 输出特征映射写回到DRAM
      • 通过减少数据传输量提升带宽利用率
    • 情况二:下一层为最大池化层

      • 最大池化操作直接在全局缓冲中执行
      • 通过优化数据存取方式提升带宽效率

    五、实验结果与总结

    实验表明,可重构人工智能加速器硬件架构在CNN运行中发挥了重要作用。针对Tiny-YOLO V2,带宽利用率降低了24%,充分验证了硬件架构的有效性。

    转载地址:http://pgybz.baihongyu.com/

    你可能感兴趣的文章
    Objective-C实现无锁链表(附完整源码)
    查看>>
    Objective-C实现无锁链表(附完整源码)
    查看>>
    Objective-C实现时间戳转为年月日时分秒(附完整源码)
    查看>>
    Objective-C实现是否为 Pythagoreantriplet 毕氏三元数组算法(附完整源码)
    查看>>
    Objective-C实现显示响应算法(附完整源码)
    查看>>
    Objective-C实现晚捆绑测试实例(附完整源码)
    查看>>
    Objective-C实现普通矩阵A和B的乘积(附完整源码)
    查看>>
    Objective-C实现更新数字指定偏移量上的值updateBit算法(附完整源码)
    查看>>
    Objective-C实现最优二叉搜索树算法(附完整源码)
    查看>>
    Objective-C实现最大和连续子序列算法(附完整源码)
    查看>>
    Objective-C实现最大最小距离算法(附完整源码)
    查看>>
    Objective-C实现最大的非常大的数字算法(附完整源码)
    查看>>
    Objective-C实现最大类间方差法OTSU算法(附完整源码)
    查看>>
    Objective-C实现最大非相邻和算法(附完整源码)
    查看>>
    Objective-C实现最小二乘多项式曲线拟合(附完整源码)
    查看>>
    Objective-C实现最小二乘法(附完整源码)
    查看>>
    Objective-C实现最小值滤波(附完整源码)
    查看>>
    Objective-C实现最小公倍数LCM算法(附完整源码)
    查看>>
    Objective-C实现最小生成树 boruvka算法(附完整源码)
    查看>>
    Objective-C实现最小编辑距离问题算法(附完整源码)
    查看>>