深度神经网络全面概述

上传人:jiz****88 文档编号:46247968 上传时间:2021-12-11 格式:DOC 页数:27 大小:1.22MB
收藏 版权申诉 举报 下载
深度神经网络全面概述_第1页
第1页 / 共27页
深度神经网络全面概述_第2页
第2页 / 共27页
深度神经网络全面概述_第3页
第3页 / 共27页
资源描述:

《深度神经网络全面概述》由会员分享,可在线阅读,更多相关《深度神经网络全面概述(27页珍藏版)》请在装配图网上搜索。

1、深度神经网络全面概述 从基本概念到实际模型和硬件基础 深度神经网络(DNN)所代表的人工智能技术被认为是这一次技术变革的基石 (之一)。近日,由 IEEE Fellow Joel Emer 领 导的一个团队发布了一篇题为深度神经网络的有效处理:教程和调研(Efficient Processing of Deep Neural Networks: A Tutorial and Survey)的综述论文,从算法、模型、硬件和架构等多个角度对深度神经网络进行了较为全面的梳理 和总结。鉴于该论文的篇幅较长,机器之心在此文中提炼了原论文的主干和部分重要内容。 目前,包括计算机视觉、语音识别和机器人在内的

2、诸多人工智能应用已广泛使用了深度神经网络 (deep neural networks , DNN) o DNN 在很多人工智能任务之中表现出了当前最佳的准确度,但同时也存在着计算复杂度高的问题。因此,那 些能帮助 DNN 高效处理并提升效率和吞吐量,同时又无损于表现准确度或不会增加硬件成本的技术是在人工智能系统 之中广泛部署 DNN 的关键。 论文地址:https:/arxiv.org/pdf/1703.09039.pdf Efficient Processing of Deep Neural Networks: A Tutorial and Survey u-lhirt A f rm Ari

3、; IF.Kl TKO-TU Qw/raf Mrmbrr, Jl Emm AWftm; /* 本文旨在提供一个关于实现 DNN 的有效处理(efficient processing) 的目标的最新进展的全面性教程和调查。特别地, 本文还给出了一个 DNN综述一一讨论了支持 DNN 的多种平台和架构,并强调了最新的有效处理的技术的关键趋势, 这些技术或者只是通过改善硬件设计或者同时改善硬件设计和网络算法以降低 DNN 计算成本。本文也会对帮助研究者 和从业者快速上手 DNN 设计的开发资源做一个总结,并凸显重要的基准指标和设计考量以评估数量快速增长的 DNN 硬件设计,还包括学界和产业界共同推荐

4、的算法联合设计。 读者将从本文中了解到以下概念:理解 DNN 的关键设计考量;通过基准和对比指标评估不同的 DNN 硬件实现;理解不 同架构和平台之间的权衡;评估不同 DNN 有效处理技术的设计有效性;理解最新的实现趋势和机遇。 一、导语 深度神经网络(DNN)目前是许多人工智能应用的基础 1。由于 DNN 在语音识别2和图像识别3上的突破性应 用,使用 DNN 的应用量有了爆炸性的增长。这些 DNN 被部署到了从自动驾驶汽车4、癌症检测5到复杂游戏6 等各种应用中。在这许多领域中,DNN能够超越人类的准确率。而 DNN 的出众表现源于它能使用统计学习方法从原 始感官数据中提取高层特征,在大量

5、的数据中获得输入空间的有效表征。这与之前使用手动提取特征或专家设计规则的 方法不同。 然而 DNN 获得出众准确率的代价是高计算复杂性成本。虽然通用计算引擎 (尤其是 GPU),已经成为许多 DNN 处理 的砥柱,但提供对 DNN计算更专门化的加速方法也越来越热门。本文的目标是提供对 DNN、理解 DNN 行为的各 种工具、有效加速计算的各项技术的概述。 该论文的结构如下: ? Section II 给出了 DNN 为什么很重要的背景、历史和应用。 ? Section III 给出了 DNN 基础组件的概述,还有目前流行使用的 DNN 模型。 ? Section IV 描述了 DNN 研发所能

6、用到的各种资源。 ? Section V 描述了处理 DNN 用到的各种硬件平台,以及在不影响准确率的情况下改进吞吐量 (thoughtput)和能 量的各种优化方法(即产生 bit-wise identical 结果)。 ? Section VI 讨论了混合信号回路和新的存储技术如何被用于近数据处理 (near-data processing),从而解决 DNN 中数据流通时面临的吞吐量和能量消耗难题。 ? Section VII 描述了各种用来改进 DNN 吞吐量和能耗的联合算法和硬件优化,同时最小化对准确率的影响。 ? Section VIII 描述了对比 DNN 设计时应该考虑的关键标

7、准。 二、深度神经网络(DNN)的背景 在这一部分,我们将描述深度神经网络(DNN)在人工智能这个大框架下的位置,以及一些促进其发展的的概念。我们还 将对其主要的发展历程和现阶段主要的应用领域做一个简单的介绍。 1. 人工智能和深度神经网络 根据 John McCarthy 的论述,深度神经网络(也称为深度学习)是人工智能(AI)大框架下的一部分。而人工智能(AI)是利 用科学与工程学创造具有如同人类那样能实现目标的智能机器。人工智能这个词就是这位计算机科学家在上个世纪 50 年代所创造出的。深度学习和整个人工智能的关系就如下图所示。 图 1 :深度学习在人工智能大框架下的位置 2. 神经网络

8、和深度神经网络(DNN) 神经网络从神经元涉及对输入值求加权和进行计算这一概念而获得灵感。这些加权和对应于突触完成值的缩放以及其和 神经元值间的组合。此外,因为计算与神经元级联相关联,并且其为简单线性代数的运算,所以神经元不会仅仅输出加 Artificial Intelligence Brai Spiking Deep Learning Neural Networks Machine Learning 权和。相反,在神经元中有函数执行组合输入的运算,而这种函数应该是非线性运算。在非线性运算的过程中,神经元 只有在输入超过一定阀值时才生成输出。因此通过类比,神经网络将非线性函数运用到输入值的加权

9、和中。我们等一下 会描述一些非线性函数。 图 2:简单的神经网络例子。(a)神经元和突触,(b)为每一层计算加权和,(c)前向和反向(循环)网络,(d)全连接与 稀疏 (a)中展示了计算神经网络的示意图。图的前端是输入层,该层会接受输入数据值。这些数据值前向传播到神经网络中间 层的神经元中,中间层也常称为神经网络的隐藏层。一个或多个隐藏层的加权和最终前向传播到输出层,该输出层会最 终向用户呈现神经网络的输出结果。为了将脑启发的术语和神经网络相匹配,神经元的输出通常称为激活 (activation), 并且突触如(a)所示通常称为权重(weight)。 3 yj = Wij x i 1 在上方表

10、达式中,W_ij 代表着权重、x_i 为输入激活、y_i 是输出激活,而 f( 就代表着在 III-2 中描述的非线性激活 函数。j 1 Neurons and synipses (bl Corn pule weighted sum for each layer Recurrent Ful)yCon nvcied output layer Input layer hidden layer inpul tajfer hidden layer (c) Fccdranvard versus feedback irc- curreni) networks fd) Fully connected ver

11、sus sparse Neurons (wtigh ta Liyer f 申2 L1 Dwipat Heuron* Feed Forward 在神经网络的领域内,有一门称为深度学习的研究。普通神经网络基本上层级不会很多,而在深度学习里,神经网络的 层级数量十分巨大,现如今基本上神经网络可以达到 5 到 1000 多层。 3. 推理 vs 训练 这一节中,如图 4 所示,我们将把图像分类用作训练 DNN 的一个强劲的实例。评估 DNN 时,我们输入一个图像, DNN 为每一个对象分类输出分值向量;分值最高的分类将成为图像中最有可能的对象分类。训练 DNN 的总体目标是 决定如何设置权重以最大化正

12、确分类(来自标注的训练数据)的分值并最小化其他不正确分类的分值。理想的正确分值与 DNN 基于其当前权重计算的分值之间的差被称为损失值 (L)。因此训练 DNN 的目标是找到一组权重以最小化大型数 据集中的平均损失值。 Class Probabilities 图 4 :图像分类任务 4. 开发历史 1940 年代-神经网络被提出 I960 年代-深度神经网络被提出 1989 年-识别数字的神经网(LeNet)出现 1990 年代-浅层神经网硬件出现(Intel ETANN) 2011 年-DNN 语音识别取得突破性进展(Microsoft) 2012 年-用于视觉的 DNN 开始替代人工放大(

13、AlexNet) 2014 年+ - DNN 加速器研究兴起(Neuflow、DianNao 等等) 图 5 的表柱是这些年来 ImageNet 竞赛中每届冠军的表现。你可以看到最初算法精确度的错误率在 25%或更多。 2012 年,多伦多大学的 AlexNet 团队通过 GPU 来提升其计算能力并采用深度神经网络方法,把错误率降低了近 10% 3。他们的成功带来了深度学习风格的算法的井喷,以及图像识别技术的持续进步。 30 Machine Learning (Inference) Dog (0.7) Cat (0,1) Bike (0,02) Car (0.02) Plane (002) H

14、ouse (0.04) 图 5: ImageNet 竞赛10结果 5. DNN 的应用 从多媒体到医疗,DNN 对很多应用大有裨益。在这一节中,我们将展示 DNN 正在发挥影响的领域,并凸显 DNN 有 望在未来发挥作用的新兴领域。 ? 图像和视频 ? 语音和语言 ? 医疗 ? 游戏 ? 机器人 6. 嵌入 vs 云 执行 DNN 推断处理的嵌入平台有着严格的能耗、计算和存储成本限制。当 DNN 推断在云中执行时,语音识别等应 用经常有强烈的延迟需求。因此,在本文中,我们将聚焦于推断处理而不是训练的计算需求。 三、深度神经网络概述 根据应用情况不同,深度神经网络的形态和大小也各异。流行的形态和

15、大小正快速演化以提升模型准确性和效率。所有 深度神经网络的输入是一套表征网络将加以分析处理的信息的值。这些值可以是一张图片的像素,或者一段音频的样本 振幅或者某系统或者游戏状态的数字化表示。 处理输入的网络有两种主要形式:前馈以及循环(图 2c)。前馈网络中,所有计算都是在前一层输出基础上进行的一系列 运作。最终一组运行就是网络的输出,比如,这张图片包括某个特定物体的概率是多少,某段音频出现某个单词的概率 是多少,或者下一步行动的建议等。在这类深度神经网络中,网络并无记忆,输出也总是与之前网络输入顺序无关。 相反,循环网络(LSTM 是一个很受欢迎的变种)是有内在记忆的,允许长期依存关系影响输

16、出。在这些网络中,一些中 间运行生成的值会被存储于网络中,也被用作与处理后一输入有关的其他运算的输入。在这篇文章中,我们关注的是前 馈网络,因为到目前为止,少有人关注硬件加速,特别是循环网络的。深度神经网络也可以是全连接的(FC,也指多层感知器),如图 2(d)最左部分所示。在一个全连接层中,所有输出与所有 输入都是相连接的。这需要相当数量的存储和计算空间。谢天谢地,在许多应用中,我们可以移除激活 (activations) 之 间的一些连接, 方法就是将权重设置为零而不影响准确性。 结果会产生一个稀疏连接层。 图 2(d) 最右端的层就是一个稀 疏连接层。 通过限制对结果有影响的权重数量,

17、我们也可以实现更高效的计算。 如果每个输出仅仅是一个固定大小输入窗口的函数, 就会出现这类结构化稀疏性。 如果这套权重被用于每一个输入计算, 就会进一步提高效率。 这一权重共享能显著降低权 重的存储要求。 通过将计算构建为卷积,一种非常流行的窗口式的权重共享的网络诞生了,如图 6(a) 所示,其仅使用少量临近的激活 来计算加权和的输出 (即,该过滤器有一个有限的接受域,与输入的距离超过特定值的所有权重都将被设置为 0),而且 这一套权重能被每个输入共享来计算 (即,滤波器是空间不变的 )。这种结构稀疏性的形式正交于源自网络 (修改情况如本 文部分 VII-B2 所述)的稀疏性。所以,卷积神经网

18、络就是一种受欢迎的深度神经网络形式。 1. 卷积神经网络 (CNN)input fmap output frriap Element-wise Partial Sum (psum) Multiplication Accumulation (a) 2-D convolution in traditianal image processing inputFmaps W lb) High dimensional convolutions in CNNs 图 6 :卷积的维度。(a)传统图像处理中的二维卷积,(b) CNN 中的高维卷积 an output activation Optional 图

19、7 :卷积神经网络 Shape Parameter Description TV batch siie o3亠D fmap r . . Af # of 3-D fillers f # of ofmap channels c # of ifniap/tiker chunnels H ifmap plane width/heighl H filter plane width/heighi (= JW in FC) E ofrnap plane width/height (- 1 in FC) 表 1 : CONV/FC 层的形状参数 给定表 I 中的形状参数(shape parameters),卷

20、积层的计算可以定义为: ei 1 Jt-i 。凶【闵国【讷=Bu|十2 H勾怖血+珈十dl * WufcJijh 虑=0 io=n 04NT0uAITQx,Sf;, E = (H-/l + U)/U. 2. 非线性(Non-Linearity)Modem Deep CNN 5-1000 Layers LcwtLeveJ + Features + * COW I Uyw Nl滤Lev出 * Features + COMV Non-Jinrfify RxHirtt Non-iinejritY Ji CfiriroitftiQn CONV layers Gas生 Scored High*Level

21、k Features + -1 -1 0 1 r X, 1 a(e*l)a(x Matrix Vector multiplication is UMX! when computing 訂 single output feature map fnim a single input feature ump. Filters Input fmaps Output fmaps Filters Input fmaps Output fmaps 4 1 + CHW (b) Matrix Multiplications is used when computing N uulput feature maps

22、 from A input feature maps. 图 15 :映射到全连接层(a)的矩阵乘法,当从单个输入特征图计算单个输出特征图时, 使用矩阵向量乘法。(b)当从 N 个 输入特征图计算 N 个输出特征图时,使用矩阵乘法。 Toeplitz Matrix (w7 redundant data) (3) NSLippinji ctmvoluiion co Toepliiz inairix Finer Input Fmap Output Fmap Convolution: 1l|2|3 Matrix Mult: 1 (b) Extend Toeplitz matrix to multipl

23、e channels and filteni 图 16 :映射到卷积层的矩阵乘法(a)将卷积映射到 Toeplitz 矩阵。(b)将 Toeplitz 矩阵扩展到多个通道和滤波器。Chnl 1 Chnl 2 Filter 1 |23fp Filter 2步“ R nBsG nQQn Chnl 2 Toeplitz Matrix (wf rodundant data) X Chnl 1 Chni2 input fmap output fmap FFT X FFT = FFT 图 17 :用于加速 DNN 的 FFT 2. 为加速器设计的 Energy-Efficient Dataflow fil

24、ter weight fmap activation partial sum Memory Read MAC* Memory Write updated parlial sum an output activation input fmap output fmap multipty-and-3CCunmtaiQ 图 18 :每个 MAC 的存取 NoimalWd Energy Cost 图 19 :存储层级和数据移动能量 Fmap Reuse CONV and FClaytrs Fihr Reuse CONV and FC layers 蚀 IE % 1) 图 20 : DNN 中的数据复用机

25、会DRAM 0.5-tO kB NoC: 200-1000 PEs 100 - 500kB Buffer OLUI DRAM *1 ALU 200 Reuse: Activations Filter weights Filter叩竺釁 Fitters Reuse: Activations Input Fmaps Reuse: F iter 讥mglnh Convolutional Reuse COW layers wily (wh 日 ”g window) Global Buffer Weight Stationary (b) Output Stationary (c) No Local Re

26、use 图 22 : DNN 的数据流。(a)权重固定(WS), (b)输出固定(OS), (c)没有局部复用(NLR) 六、近场数据处理 在上一章节中,我们强调了数据流通主导了能源的消耗。虽然空间架构尽可能将储存器安放在离计算很近的位置(如放入 PE),但同时我们也在努力将高密度存储器安置在近计算的位置,或者直接将计算集成到存储器本身中。在嵌入式系统 中,我们还努力将计算放入到传感器(最先收集数据的元件)中。在本论文的这个章节中,我们将讨论如何通过使用混合 信号回路(mixed-signal circuit) 设计和高级存储技术将处理尽可能放置在离数据近的地方以减少数据流通。 A. DRAM

27、 B. SRAMI Weight PE Global Buffer Psum Weight Act Global Buffer PE C. 非易失性电阻式存储(Non-volatile Resistive Memories) D. 传感器 (訊)Multiplication performed by bit-cell (Figure from |97J) 图 33。通过(a) SRAM bit-cell 和(b)非易失性电阻式存储进行模拟计算 七、DNN 模型和硬件的联合设计(CO-DESIGN) 对 DNN 模型和 DNN 硬件进行联合设计可以为处理效率带来进一步的提升。在传统上, DNN

28、模型的设计目标是最 大化准确度,而不会考虑太多实现的复杂性。但是,这可能会使得设计很难实现。 DNN 模型和硬件和联合设计可以有 效地联合最大化准确度和吞吐量,同时最小化能耗和成本,这能增加采用的可能性。这种方法已经在其它重要的且广泛 应用的多媒体应用(比如视频压缩)中得到了证明。之前的时候,视频标准大多关注算法开发。从 MPEG-2 到 H.264/AVC, 在编码效率上实现了 2 倍的提升,而解码器复杂性却增加了 4 倍110。最近,最新的视频编码标准 H.265/HEVC 111使用了算法和硬件的联合设计;结果其相对于 H.264/AVC 在编码效率上实现了又 2 倍的提升112,而解码

29、器 复杂性也只增加了 2 倍。在这一节,我们将重点介绍几个 DNN 模型和硬件联合设计方面的研究。注意和第 V 节不 同,这一节所提出的技术可能会改变准确度;尽管其目标是在最小化准确度改变的同时显著减少能耗并提高吞吐量。 这些方法可以大致分为以下几类: 降低运算和操作数的精度。这包括将浮点数改为定点数、减少位宽、移到对数域和权重共享。 降低运算的数量和模型的大小。其中的技术包括:压缩、剪枝和设计紧凑的网络架构。 WLDAC rods 心I BL BLS Ideal transfer curve 5 10 15 20 Z5 30 35 WLDAC Cede I = + l2 =V*xGq + V

30、2G2 (b) G is conductance of resistive memory (Figure from 99) HNIIICC Bit/n idlh JMrtt ft r 1 Mb Dyniirnic Fix rd Eiinl 出1 IN 3 M计Mimi帼【IE町 Rniiicr wright TcriaaFi! VElchl irlwiiirikft l l WNi 12V 萨 )2 1 Hi Kill 1.7 TrAinrd Ttrfian QiNnii/ntiim iTTQp II Tif t x2 iilir 192 RUFUrj WrieM (BWNIItl* 車 1

31、*2 rHiUiji f)兀 Rrdwt wrlghi Mntl iirl h at life 11 OtWhiirttl riwiwki 11 lfi 1 HtoiiHMd NWIRI Nclwurlu 127 r T HU F- 丁 n 1ncimrHbFiii:i3 iQuanliFMlirHi 1 | y Wl AQUI ! 匠NSTTIHI 5 itun i Xiiui rW|i 咿zl“n | U| Ti- TT 1 i mi i. 2 HLI 16 1* 1聞 1 kl&r/SparMr LXrnw uppuirlcd Latws CO?iV 1. CCfiVX CDMV

32、J. C0M4 CUSV5 CONV L-LCONVl- OQNY2-J* CDMVZ CON3-L+ CONV3-2, CDNYl-i, CONV4-1. CVSV4 2. CUXV4-3.CUSV54 (.OSVj-2 COAAS J Huu li Sk J Fbk e 冊 Hih per Inpiil ililiititiiiii It bjMrr per n卜1( 4p*Jh 血1 (utK h ip arc rww pvir imin-irrin 1 VC i Ky le i O1 HIIJI Ticnr 询H.4 iihU i | llfl TMJLLV 表 5: Eyeriss 基准指标示例 【本文是 51CT0 专栏机构机器之心的原创译文,微信公众号 机器之心(id: almosthuman2014) ” 戳这里,看该作者更多好文 【编辑推荐 1. 蚂蚁金服生物识别技术负责人陈继东:数据驱动人工智能引发行业变革 2. 十年后,你的工作会被人工智能取代吗? 3. HanSight 瀚思万晓川:国内安全厂商应推动安全人工智能化 4. 在癌症治疗这件事上,要不要相信人工智能? 5. 百度首席科学家吴恩达宣布离职发公开信表达对人工智能信心十足

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!