文献阅读（6）：AI Deep Learning Accelerator

阅读量：486 次

发布时间：2019-03-06

本文共 1265 字，大约阅读时间需要 4 分钟。

深度学习硬件加速器设计与实现

摘要

本文提出了一种基于层的可重构硬件架构，用于加速深度学习中的卷积神经网络（CNN）。该架构通过动态重配置层参数，适应不同CNN网络架构需求。实验结果表明，该硬件架构能显著降低带宽利用率，并在Tiny-YOLO V2等网络上实现了高效运行。

目录

一、简介

题目

Reconfigurable Hardware Architecture Design and Implementation for AI Deep Learning Accelerator

时间

2020.10

来源

Global Conference on Consumer Electronics (GCCE)

简介

深度学习在数据分类和目标检测领域展现出显著优势，但计算复杂度较高。本文提出了一种基于层的CNN硬件加速器架构，可通过重新配置层参数适应不同CNN架构需求。

论文主要贡献

提出了基于层的操作模式

实现了卷积和最大池化双重执行，提升数据重用率

将最大池化操作移至全局缓冲，减少数据传输量

二、相关名词

YOLO（You only look once），实时目标检测系统

R-CNN，深度学习目标检测算法

DRAM（Dynamic Random Access Memory），动态随机存取存储器

SRAM（Static Random-Access Memory），静态随机存取存储器

三、相关背景知识

1. 目标检测

目标检测是深度学习的重要应用领域，主要任务是从图片或视频中检测感兴趣物体及其位置和大小。目标检测方法主要分为一阶段（one-stage）和二阶段（two-stage）两种：

一阶段方法
- 速度较快，直接在网络中提取特征并预测物体边界框
- 典型算法：YOLOv1~v7、SSD

二阶段方法
- 准确性更高，但速度较慢
- 典型算法：R-CNN、Faster R-CNN
- 工作流程：通过生成候选框（region proposals）并对其进行分类

2. Tiny-YOLO V2

Tiny-YOLO V2是一种用于物体检测的实时神经网络，支持20个不同类别。其网络结构由9个卷积层和6个最大池化层组成，输入特征映射为416x416x3，输出特征映射为13x13x125。

四、处理流程概述

1. 系统架构图

系统架构图展示了硬件加速器的整体框架，包括DRAM、系统控件、全局缓冲和PE（Processing Element）等核心组件。

2. 降低带宽利用率的两种情况

在输入图像和权重经DRAM、系统控件、全局缓冲和PE处理后，有两种主要方式降低带宽利用率：

情况一：下一层为卷积层
- 输出特征映射写回到DRAM
- 通过减少数据传输量提升带宽利用率

情况二：下一层为最大池化层
- 最大池化操作直接在全局缓冲中执行
- 通过优化数据存取方式提升带宽效率

五、实验结果与总结

实验表明，可重构人工智能加速器硬件架构在CNN运行中发挥了重要作用。针对Tiny-YOLO V2，带宽利用率降低了24%，充分验证了硬件架构的有效性。

转载地址：http://pgybz.baihongyu.com/

你可能感兴趣的文章

Objective-C实现iterating through submasks遍历子掩码算法(附完整源码)

Objective-C实现jaccard similarity相似度无平方因子数算法(附完整源码)

Objective-C实现Julia集算法(附完整源码)

Objective-C实现k nearest neighbours k最近邻分类算法(附完整源码)

Objective-C实现k-Means算法（附完整源码）

Objective-C实现k-nearest算法（附完整源码）

Objective-C实现Knapsack problem背包问题算法（附完整源码）

Objective-C实现knapsack背包问题算法(附完整源码)

Objective-C实现knapsack背包问题算法(附完整源码)

Objective-C实现knight tour骑士之旅算法(附完整源码)

Objective-C实现KNN算法(附完整源码)

Objective-C实现koch snowflake科赫雪花算法(附完整源码)

Objective-C实现KPCA(附完整源码)

Objective-C实现kth order statistick阶统计量算法(附完整源码)

Objective-C实现LongestIncreasingSubsequence最长递增子序列算法（附完整源码）

Objective-C实现LRU 缓存算法（附完整源码）

Objective-C实现lstm prediction预测算法(附完整源码)

Objective-C实现Luhn (Mod 10)Algorithm算法(附完整源码)

Objective-C实现max subarray sum最大子数组和算法(附完整源码)

Objective-C实现MaximumSubarray最大子阵列（动态规划解决方案）算法（附完整源码）