深度学习芯片

上传人：回**** 文档编号：203709364 上传时间：2023-04-25 格式：DOCX 页数：19 大小：1.54MB

收藏版权申诉举报下载

第1页 / 共19页

第2页 / 共19页

第3页 / 共19页

下载文档到电脑，查找使用更方便

15 积分

下载资源

资源描述：

《深度学习芯片》由会员分享，可在线阅读，更多相关《深度学习芯片（19页珍藏版）》请在装配图网上搜索。

1、I芯片分类：功能： 1Trining(训练) 2. Inrce（推理)两个环节；应用场景: 1 Clud/DtaCenter(云端). Devce/medded(设备端)技术架构发展类型:1、通用类芯片，代表如PU、A;2、基于PGA的半定制化芯片,代表如深鉴科技、百度XU等;、全定制化A芯片，代表如gogeTU、寒武纪 Carion-A等；、类脑计算芯片，代表如 Tuoth、westell、高通Zrot等。类型比对一、长处：具有数以千计的计算核心可实现10-0倍应用吞吐量支持对深度学习至关重要的并行计算能力比老式解决器更加迅速加快了训练过程目前最普遍采用的深度学习运算单元之一。局限性

2、:.应用过程中无法充足发挥并行计算优势。深度学习涉及训练和应用两个计算环节,GPU在深度学习算法训练上非常高效，但在应用时一次性只能对于一张输入图像进行解决，并行度的优势不能完全发挥.硬件构造固定不具有可编程性。深度学习算法尚未完全稳定,若深度学习算法发生大的变化，GP无法灵活的配备硬件构造。能耗虽然 GU要好于 CPU,但其能耗仍旧很大二、 FGAFPA,即现场可编辑门阵列,是一种新型的可编程逻辑器件，由于其具有静态可反复编程和动态在系统重构的特性,使得硬件的功能可以像软件同样通过编程来修改。FG作为人工智能深度学习方面的计算工具，重要因素就在于其自身特性:可编程专用性,高性能,低功耗。

3、北京大学与加州大学的一种有关PGA加速深度学习算法的合伙研究。展示了 FGA 与 CPU 在执行深度学习算法时的耗时对比。在运营一次迭代时,使用 CU耗时 7 毫秒,而使用 PGA只耗时 21 毫秒,获得了 1倍左右的加速比。根据瑞士苏黎世联邦理工学院（ETHZurich）研究发现,基于FPGA的应用加速比GPU方案，单位功耗性能可提高25倍，而时延则缩短了50到75倍，与此同步还能实现杰出的I/O集成。而微软的研究也表白，PGA的单位功耗性能是 GPU的 0倍以上,由多种FPGA 构成的集群能达到 PU 的图像解决能力并保持低功耗的特点。根据英特尔估计,到 ,将有 /的云数据中心节点采用 F

4、A 技术。三、不可估计的 ASICSIC(piation Spcificrated Ciuits,专用集成电路),是指应特定顾客规定或特定电子系统的需要而设计、制造的集成电路。ASI用于专门的任务，例如清除噪声的电路,播放视频的电路，但是 ASIC明显的短板是不可更改任务。但与通用集成电路相比,具有如下几种方面的优越性:体积更小、功耗更低、可靠性提高、性能提高、保密性增强、成本减少。从算力上来说,ASC产品的计算能力是 K10 的2.5 倍。功耗上,AIC 功耗做到了GK210(NVIDIA)的 /15。固然SIC是能效最高的,但目前，都在初期阶段，算法变化各异。想搞一款通用的ASIC适配多

5、种场景,还是有诸多路需要走的。但从比特币挖矿机经历的从CPU、GPU、PGA到最后 SIC的四个阶段来推论，ASIC将是人工智能发展的重要趋势之一。此外,在通信领域,PGA曾经也是风行一时,但是随着 SIC的不断发展和蚕食，GA的份额和市场空间已经岌岌可危。四、 PU：为深度学习而生的专业芯片从技术角度看,深度学习事实上是一类多层大规模人工神经网络。它模仿生物神经网络而构建,由若干人工神经元结点互联而成。神经元之间通过突触两两连接,突触记录了神经元间联系的权值强弱。每个神经元可抽象为一种鼓励函数,该函数的输入由与其相连的神经元的输出以及连接神经元的突触共同决定。为了体现特定的知识,使用者一般需

6、要（通过某些特定的算法)调节人工神经网络中突触的取值、网络的拓扑构造等。该过程称为“学习”。在学习之后，人工神经网络可通过习得的知识来解决特定的问题。由于深度学习的基本操作是神经元和突触的解决,而老式的解决器指令集（涉及x6和AM等)是为了进行通用计算发展起来的,其基本操作为算术操作（加减乘除）和逻辑操作(与或非）,往往需要数百甚至上千条指令才干完毕一种神经元的解决，深度学习的解决效率不高。因此googl甚至需要使用上万个x CPU核运营天来训练一种辨认猫脸的深度学习神经网络。因此，老式的解决器(涉及和R芯片等)用于深度学习的解决效率不高,这时就必须另辟蹊径突破典型的冯诺伊曼构造。以中国的寒武

7、纪为例,DianNaoY指令直接面对大规模神经元和突触的解决，一条指令即可完毕一组神经元的解决,并对神经元和突触数据在芯片上的传播提供了一系列专门的支持。此外,神经网络中存储和解决是一体化的,都是通过突触权重来体现。而冯诺伊曼构造中，存储和解决是分离的,分别由存储器和运算器来实现，两者之间存在巨大的差别。当用既有的基于冯诺伊曼构造的典型计算机（如8解决器和英伟达GP)来跑神经网络应用时,就不可避免地受到存储和解决分离式构造的制约,因而影响效率。这也就是专门针对人工智能的专业芯片可以对老式芯片有一定先天优势的因素之一。用数字来说话，、GU与NP相比,会有百倍以上的性能或能耗比差距以寒武纪团队过去

8、和Inria联合刊登的iana论文为例DianNao为单核解决器,主频为0.8Gz,峰值性能达每秒420亿次神经网络基本运算,5nm工艺下功耗为0485,面积30平方毫米。在若干代表性神经网络上的实验成果表白Dianao的平均性能超过主流C核的100倍,但是面积和功耗仅为/0，效能提高可达三个数量级；DnNo的平均性能与主流PU相称,但面积和功耗仅为主流GPU百分之一量级。AI芯片产业生态:全球A芯公司：国内I芯片公司已成熟、权威的芯片厂商（一）英伟达JetnTX1芯片方案（U)相继为rt及其竞争对手大疆提供芯片，针对无人机市场,英伟达开发了Jetson X1芯片方案,可以胜任各类图像图形

9、辨认和高档人工智能任务，使用它的无人机可以在空中停留更长时间。（二）英特尔解决器英特尔把无人机作为其解决器产品的一大新兴应用加以推广,并且更乐意看到其这两年主打的alSens实感技术即3D摄像头的无人机应用有所突破。采用英特尔实感技术的uneecTyphn ,具有防撞功能，具有以便起飞、配备4K摄像头和360度万向接头，以及遥控器内置显示屏等特点,内置了高达6个英特尔的“Rel ense”D摄像头，采用了四核的英特尔凌动（tm）解决器的PI-epress定制卡,来解决距离远近与传感器的实时信息,以及如何避免近距离的障碍物。在无人机视觉方面。英特尔最大的优势在于其RealSns技术采用的红外激

10、光,相较起高通的双目视觉技术,规避了计算机视觉辨认物体的大量计算,并有效提高了精度。（三）三星rtk5芯片三星Artik芯片有三个型号,其中应用于无人机的重要是Artk，Ak尺寸为29x25mm,搭载G ARM双核解决器(Mai40 MGPU），搭配的是512B LPD3内存以及B M闪存。支持iF、低功耗蓝牙,支持80.1 /。此外,该芯片还能对解码.6等格式2030ps的视频进行解码，并提供了TrustZo。（四）高通骁龙Fght平台骁龙Fligh是一块高度优化的40mm开发板,专门针对消费级无人机和机器人应用而设计。骁龙Fligh涉及一颗骁龙01SoC(由四颗主频为2.26Hz的核

11、心构成）,支持GS、4K视频拍摄、强劲的连接性以及先进的无人机软件和开发工具，双通道iFi和蓝牙模块，支持实时飞行控制系统,拥有全球导航卫星系统（GSS）接受器，支持4K视频解决，支持迅速充电技术。腾讯的ing、零零无限的小型无人机产品 overamera 及零度智控的自拍无人机obby的样机都用的是sadraon fligt。无人机设计平台 Snadragn Fih 无人机芯片具有和智能手机相似的解决器对比目前重要的无人机芯片解决方案,高通apraon flig 的PU 尺寸最小、主频最高。目前已应用于国内厂商零零无限的小型无人机产品vcamra 及零度智控的自拍无人机doy 的样机。（五

12、） Ambarella（安霸公司)位于加利福尼亚的视频压缩和图像解决芯片厂商,在今年的ES上发布了三款全新的芯片，筹划将新一代影像带到汽车、无人机、V以及运动相机中去。安霸公司高性能的压缩解决器芯片获得了全球厂商的高度承认。诸多世界出名的公司都采用了该公司的方案,涉及oPr运动照相机、大疆无人机、Googe最新二四镜头VR相机。（六）大疆Maiold (U）价格6Manfold 妙算专为飞行平台设计的嵌入式机载电脑,拥有C独立显卡级别的绘图能力，支持Dirct11、eG，可让机器人实时进行复杂的图像解决。nifld还支持NVII CUDA,用于开发最前沿的GPU加速应用，可将程序性能提高数

13、倍。Manifld能广泛应用于计算机视觉、深度学习等人工智能领域,让你的设备具有环境感知、物体辨识和实时反映能力。便捷的开发环境强大的移动计算机 Mnifold采用VIDA Tegr K1解决器,内含4+ 四核ARM Crex A15核心和1个GPCUD核心,最高主频达2.2GH。NVIIA Plu (-Plu) 四核 ARM rtex-A15低功耗 IIA Keer Gefr图像解决器 G核心不仅能实现强大的图像解决能力，并且能高效地解决并行任务,浮点运算能力达GFLP。aold能让你发挥创意，设计更智能的程序,把机器人应用在更广阔的领域。Manifd妙算为开发者设计，它搭载了Ubntu操作

14、系统*,可便捷安装运营Lnx软件，支持CUA、OpeC及ROS等,非常适合用在专业应用的研究和开发中。Maniold全面支持DJI ad SK,可轻松获取飞行数据,并进行控制和数据分析，把你的创意和DI飞行平台优秀的性能轻松结合。低功耗Maniold 妙算采用低功耗设计方案,可为你的机器人提供长期续航。其峰值功耗约5W,仅为一般笔记本电脑的四分之一,配备的TegraK1 PU共有个A15核心,可沉着应对复杂的计算任务,个附属核心负责简朴任务的解决。其中,个A1核心中的每一种核心均可根据工作负荷的繁重限度,独立而自动地启用和关闭，从而减少整体功耗。耗电量MAX 15W新型芯片厂商（七）寒武纪（

15、国产 ASIC)寒武纪是全球第一种成功流片并拥有成熟产品的芯片公司，拥有终端A解决器和云端高性能AI芯片两条产品线。发布的寒武纪1解决器（Cmcon-1A）是世界首款商用深度学习专用解决器，面向智能手机、安防监控、无人机、可穿戴设备以及智能驾驶等各类终端设备,在运营主流智能算法时性能功耗比全面超越老式解决器。智能解决器IP（今年五月）MLU10采用寒武纪最新的MLUv架构和TMC 16m的先进工艺,可工作在平衡模式(GH主频）和高性能模式(1.3GH主频）下,平衡模式下的等效理论峰值速度达每秒12万亿次定点运算，高性能模式下的等效理论峰值速度更可达每秒1664万亿次定点运算,但典型板级功耗仅为

16、0瓦,峰值功耗不超过0瓦。与寒武纪系列终端解决器同样，M0云端芯片仍然延续了寒武纪产品一贯杰出的通用性,可支持各类深度学习和典型机器学习算法,充足满足视觉、语音、自然语言解决、典型数据挖掘等领域复杂场景下(如大数据量、多任务、多模态、低延时、高通量)的云端智能解决需求。（八）华为海思于7月推出了华为海思无人机平台，即联手深圳本土初创公司宙心科技,在华为海思芯片的基本上推出了一系列无人机解决方案。SO基于SC芯片组的成功研发经验，海思半导体可以提供最先进的SO架构设计和实行。我们的S芯片组可以以最低的成本内存带宽和功耗实现最高性能。特别是对于智能相机产品,我们可以提供高性能和可销售的异构计算多

17、核解决器架构,具有先进的CU,视觉DSP,专用深度学习引擎和嵌入式GPU。在无人机领域，华为旗下全资子公司海思原先在安防摄像头市场有70%的市场份额,随后为了给这安防摄像头插上翅膀，于月推出了华为无人机平台，即联手深圳本土初创公司宙心科技,在华为海思芯片的基本上推出了一系列无人机解决方案。麒麟970概述：麒麟70采用最先进的SMC 10纳米工艺技术制造,该技术在大概指甲大小的区域内集成了5亿个晶体管。麒麟970结合了八核CP，12核P,双ISP,12ps高速Cat.1TE调制解调器和创新的HiA移动计算架构。麒麟97具有超迅速连接,智能计算能力,高清视听效果和超长电池寿命。重要规格:HAI架构

18、:CU/ GPU / NPU / IP/ PCPU：3 A3GP:Mi-G2MP2专用的NPU协解决器：i7传感器协解决器ISP:具有面部和运动检测功能的双IP，4-bri Foc弱光和动态拍摄内存:DDR X调制解调器：LT Cat1 / 1.2Gb L / 150 Mbp U语音解决方案：双卡双待VoLE音频：2bi 38 KHz高清音频,减少噪音视频：4K视频，HD 10安全解决方案:inS 2.工艺:10m强调：麒麟970是华为首款移动A计算平台。凭借集成了专用神经网络解决单元(P)的新HiA移动计算架构，麒麟90的性能提高了约25倍，效率提高了50倍,大大提高了图像辨认,语音交互和智

19、能照相的功能。（九）深鉴科技DPU(GA）深鉴科技已经设计出一套基于DU的一整套深度学习硬件解决方案,涉及DP的芯片架构、DU编译器、硬件模块(订制的CB板)三部分。直接呈现的产品就是硬件模块,共有嵌入式端和服务器端两款,在性能超过同类产品的同步,功耗、售价都大幅下降。从官方提供的数据来看，嵌入式端的产品在性能超过Nvd 􏰀 的同步，功耗、售价仅为后者的1/4左右。服务器端的产品，性能接近Nida K0 G ,但功耗只有35瓦左右,售价30美元如下，局限性后者的11。产品功耗的减少和性能的提高重要依赖于算法上的创新和芯片构造的创新。深鉴科技的首席科学家韩松始终在研究“深度压

20、缩”(Dee Comprssin）技术，可以将神经网络压缩数十倍而不影响精确度，可以使用片上存储来存储深度学习算法模型,减少内存读取，从而大幅度减少功耗。这一研究也得到了学界的承认,已经被选为LR两篇最佳论文之一（另一篇来自AlphGo开发者谷eepMi)。在芯片构造上，深鉴科技重新设计了产品的架构（见下图)。针对深度学习计算中的大规模频繁复用,设计了专门的P架构及编译器。顾客可以正常通过GU训练深度学习模型,并直接将模型编译到DPU指令集，指令直接下载到DU上,使得深度学习算法的运营效率提高。（十） Gogle ogleTU2.0 (ASIC）P（Ts Pcssing Unit）即张量解决单

21、元，是一款为机器学习而定制的芯片,通过了专门深度机器学习方面的训练,它有更高效能（每瓦计算能力)。去年四月份,goe发布TP有关论文，称“U 解决速度比目前 GP 和 PU 要快 5到30 倍”。新的 U 涉及了四个芯片,每秒可解决180万亿次浮点运算。Ggle 还找到一种措施,使用新的计算机网络将 64个 T组合到一起,升级为所谓的TPU Pods,可提供大概 1500 万亿次浮点运算能力。除了速度,第二代TPU 最大的特色，是相比初代 U它既可以用于训练神经网络，又可以用于推理。弊端:一方面开发出新的芯片并不能保证 ool成功,要使用 TPU 2.,开发者要学习一种构建和运营神经网络的新措

22、施。它不仅仅是一种新的芯片,TP 也是专门为 Tenorlow 设计。不同的是,o不会将PU直接发售,而是通过其新的云服务提供,这个新的TPU价格为每小时每单元6.美元，而通过KubentesEgine租赁的GPU将按goge既有的每种支持芯片型号收费。（十一）全志16平台小米去年发布的无人机采用的主控方案正是全志科技的R16平台。此前1解决器曾被用在京东智能音箱、小鱼在家等产品上。这款产品,内置了双星GPS定位接受器,可以接受并解析P、LOAS两个卫星定位系统的信号，以提高无人机收星定位能力，保障无人机的工作安全。（十二）联芯LC60模组走的是低价位的性价比路线,CPU采用6核CortexA,PU采用2G 双核Mal T28GU。大疆精灵Phanto就采用过联芯方案L80，零度智控还推出基于联芯LC186的双目视觉整体解决方案。据悉,联芯还与小米合资成立松果电子，专注智能硬件领域

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

深度学习芯片

最新文档

相关资源

相关搜索