AI芯片产业生态梳理课件

上传人：风*** 文档编号：181105122 上传时间：2023-01-10 格式：PPT 页数：25 大小：4.06MB

收藏版权申诉举报下载

第1页 / 共25页

第2页 / 共25页

第3页 / 共25页

下载文档到电脑，查找使用更方便

20 积分

下载资源

资源描述：

《AI芯片产业生态梳理课件》由会员分享，可在线阅读，更多相关《AI芯片产业生态梳理课件（25页珍藏版）》请在装配图网上搜索。

1、AI芯片产业生态梳理芯片产业生态梳理Page 2目录目录AI芯片分类1AI芯片产业生态2中国AI芯片公司3 4Page 3AI芯片分类芯片分类从功能上分从功能上分Training训练通过大量的数据输入或采取增强学习等非监视学习方法，训练出一个复杂的深度神经网络模型,涉及海量的训练数据和复杂的深度神经网络构造，运算量巨大，需要庞大的计算规模，对于处理器的计算能力、精度、可扩展性等性能要求很高,主要使用NVIDIA的GPU集群来完成，Google自主研发的ASIC芯片TPU2.0也支持训练环节的深度网络加速,Inference推理利用训练好的模型，使用新的数据去“推理出各种结论，如视频监控设备

2、通过后台的深度神经网络模型，判断一张抓拍到的人脸是否属于黑名单。Inference的计算量相比Training少很多，但仍然涉及大量的矩阵运算。在推理环节，GPU、FPGA和ASIC都有很多应用价值。可以分为Training(训练)和Inference(推理)两个环节Page 4AI芯片分类芯片分类从应用场景分从应用场景分Cloud/DataCenter云端在深度学习的Training阶段，由于对数据量及运算量需求巨大，单一处理器几乎不可能独立完成一个模型的训练过程，Training环节目前只能在云端实现，在设备端做Training目前还不是实际。在Inference阶段，由于目前训练出来的

3、深度神经网络模型大多仍非常复杂，其推理过程仍然是计算密集型和存储密集型的，假设部署到资源有限的终端用户设备上难度很大，因此，云端推理目前在人工智能应用中需求更为明显。GPU、FPGA、ASIC(Google TPU1.0/2.0)等都已应用于云端Inference环境。Device/Embedded设备端在设备端Inference领域，智能终端数量庞大且需求差异较大，如高级辅助驾驶ADAS、虚拟现实VR等设备对实时性要求很高，推理过程不能交由云端完成，要求终端设备本身需要具备足够的推理计算能力，一些低功耗、低延迟、低本钱的专用芯片也会有很大的市场需求。可以分成“Cloud/DataCen

4、ter(云端)和“Device/Embedded(设备端)两大类Page 5AI芯片分类芯片分类从技术架构分从技术架构分通用芯片 GPU FPGA基于FPGA的半定制化芯片深鉴科技DPU、百度XPU(256核、基于FPGA的云计算加速芯片与赛灵思Xilinx合作)全定制化ASIC芯片 TPU 寒武纪 Cambricon-1A等类脑计算芯片 IBM TrueNorth、Westwell西井科技、高通Zeroth等Page 6AI芯片分类象限图芯片分类象限图TrainingInferenceGPU VSCloud/DataCenterDevice/Embedded?GPU/FPGA /ASICF

5、PGA /ASICPage 7AI芯片产业生态芯片产业生态Inference On Device设备端推理设备端推理MobileADASCVNLPVRInference On Cloud云端推理GPUFPGAASICTrainingOn Cloud云端训练GPUASICTrainingOn Device设备端训练?Page 8Training训练训练CPU VS GPU 架构架构ControlALUALUALUALUCacheDRAMDRAMCPUGPUPage 9CPU和和GPU比照说明比照说明CPU架构 u2007年以前，人工智能研究受限于当时算法、数据等因素，对于芯片并没有特别强烈的需求

6、，通用的CPU芯片即可提供足够的计算能力。uGoogle Brain工程，使用包含16000个CPU核的并行计算平台，训练超过10亿个神经元的深度神经网络。uCPU的串行构造并不适用于深度学习所需的海量数据运算需求，u用CPU做深度学习训练效率很低，在早期使用深度学习算法进展语音识别的模型中，拥有429个神经元的输入层，整个网络拥有156M个参数，训练时间超过75天。u在内部构造上，CPU中70%晶体管都是用来构建Cache(高速缓冲存储器)和一局部控制单元，负责逻辑运算的局部(ALU模块)并不多，指令执行是一条接一条的串行过程。GPU架构 uGPU整个就是一个庞大的计算矩阵，GPU具有数以千

7、计的计算核心、可实现10-100倍应用吞吐量，u还支持对深度学习至关重要的并行计算能力，可以比传统处理器更加快速，大大加快了训练过程。uGPU 由并行计算单元和控制单元以及存储单元构成，拥有大量的核(多达几千个)和大量的高速内存，擅长做类似图像处理的并行计算，以矩阵的分布式形式来实现计算。同CPU不同的是，GPU的计算单元明显增多，特别适合大规模并行计算。Page 10通用计算通用计算GPUNVIDIA一家独大一家独大u 2021年NVIDIA就开场布局人工智能产品，u 2021年发布了新一代PASCAL GPU芯片架构，这是NVIDIA的第五代GPU架构，也是首个为深度学习而设计的GPU，它

8、支持所有主流的深度学习计算框架。u 2021年上半年，NVIDIA又针对神经网络训练过程推出了基于PASCAL架构的TESLA P100芯片以及相应的超级计算机DGX-1。DGX-1包含TESLA P100 GPU加速器，采用NVLINK互联技术，软件堆栈包含主要深度学习框架、深度学习SDK、DIGITS GPU训练系统、驱动程序和CUDA，能够快速设计深度神经网络(DNN)，拥有高达170TFLOPS的半精度浮点运算能力，相当于250台传统效劳器，可以将深度学习的训练速度加快75倍，将CPU性能提升56倍。Page 11Training市场市场NVIDIA竞争对手竞争对手GoogleTrai

9、ning市场目前能与NVIDIA竞争的就是Google。今年5月份Google发布了TPU 2.0，TPU(TensorProcessing Unit)是Google研发的一款针对深度学习加速的ASIC芯片，第一代TPU仅能用于推理，而目前发布的TPU 2.0既可以用于训练神经网络，又可以用于推理。TPU2.0包括了四个芯片，每秒可处理180万亿次浮点运算。Google还找到一种方法，使用新的计算机网络将64个TPU组合到一起，升级为所谓的TPU Pods，可提供大约11500万亿次浮点运算能力。Google表示，公司新的深度学习翻译模型如果在32块性能最好的GPU上训练，需要一整天的时间，而

10、八分之一个TPU Pod就能在6个小时内完成同样的任务。目前Google 并不直接出售TPU芯片，而是结合其开源深度学习框架TensorFlow为AI开发者提供TPU云加速的效劳，以此开展TPU2的应用和生态，比方TPU2同时发布的TensorFlow Research Cloud(TFRC)。Page 12传统传统CPU/GPU厂家也进入厂家也进入Training市场市场u 传统CPU/GPU厂家Intel和AMD也在努力进入这Training市场，如Intel推出的Xeon Phi+Nervana方案，u AMD的下一代VEGA架构GPU芯片等，但从目前市场进展来看很难对NVIDIA构成威

11、胁。u 初创公司中，英国Graphcore公司的IPU处理器(IntelligenceProcessing Unit)据介绍也同时支持Training和Inference。该IPU采用同构多核架构，有超过1000个独立的处理器；支持All-to-All的核间通信，采用BulkSynchronous Parallel的同步计算模型；采用大量片上Memory，不直接连接DRAM。u 总之，对于云端的Training(也包括Inference)系统来说，业界比较一致的观点是竞争的核心不是在单一芯片的层面，而是整个软硬件生态的搭建。NVIDIA的CUDA+GPU、Google的TensorFlow+

12、TPU2.0，巨头的竞争也才刚刚开场。Intel Xeon Phi+NervanaAMD 下一代VEGA架构GPU芯片Page 13Inference On Cloud云端推理云端推理FPGA应用应用u 相对于Training市场上NVIDIA的一家独大，Inference市场竞争那么更为分散。u 业界所说的深度学习市场占比(Training占5%，Inference占95%)，Inference市场竞争必然会更为剧烈。u 在云端推理环节，虽然GPU仍有应用，但并不是最优选择，更多的是采用异构计算方案(CPU/GPU+FPGA/ASIC)来完成云端推理任务。u FPGA领域，四大厂商(Xili

13、nx/Altera/Lattice/Microsemi)中的Xilinx和Altera被Intel收购在云端加速领域优势明显。u Altera在2021 年12月被Intel收购，随后推出了Xeon+FPGA的云端方案，同时与Azure、腾讯云、阿里云等均有合作；u Xilinx那么与IBM、百度云、AWS、腾讯云合作较深入，另外Xilinx还战略投资了国内AI芯片初创公司深鉴科技。目前来看，云端加速领域其他FPGA厂商与Xilinx和Altera还有很大差距。Page 14Inference On Cloud云端推理云端推理FPGA应用应用时间时间公司公司内容内容2015/06/10IBM在

14、IBM POWER系统上运用Xilinx FPGA加速工作负载处理技术2016/03/23FacebookFacebook开始采用CPU+FPGA服务器2016/09/30微软微软开始使用FPGA 加速Bing搜索和Azure云计算2016/11/30亚马逊AWS亚马逊AWS推出FPGA云服务EC2 F12017/01/20腾讯云腾讯云推出国内首款高性能异构计算基础设施FPGA云服务器2017/01/21阿里云阿里云发布异构计算解决方案：弹性GPU实例和FPGA解决方案2017/05/25百度云百度对外正式发布FPGA云服务器Page 15Inference On Cloud云端推理云端推理A

15、SIC应用应用u ASIC领域，应用于云端推理的商用AI芯片目前主要是Google的TPU1.0/2.0。其中，TPU1.0仅用于Datacenter Inference应用。它的核心是由65,536个8-bit MAC组成的矩阵乘法单元，峰值可以到达92 TeraOps/second(TOPS)。有一个很大的片上存储器，一共28 MiB。它可以支持MLP，CNN和LSTM这些常见的神经网络，并且支持TensorFLow框架。它的平均性能(TOPS)可以到达CPU和GPU的15到30倍，能耗效率(TOPS/W)能到30到80倍。如果使用GPU的DDR5 memory，这两个数值可以到达大约GP

16、U的70倍和CPU的200倍。TPU 2.0既用于训练，也用于推理，上一节已经做过介绍。u 国内AI芯片公司寒武纪科技据报道也在自主研发云端高性能AI芯片，目前与科大讯飞、曙光等均有合作。Page 16Inference On Device设备端推理设备端推理u 设备端推理的应用场景更为多样化，智能手机、ADAS、智能摄像头、语音交互、VR/AR等设备需求各异，需要更为定制化、低功耗、低本钱的嵌入式解决方案，这就给了创业公司更多时机，市场竞争生态也会更加多样化Page 17Inference On Device设备端推理设备端推理智能手机应用智能手机应用u 华为2021年9月初发布的麒麟970

17、 AI芯片就搭载了神经网络处理器NPU(寒武纪IP)。u 苹果2021年最新发布的A11仿生芯片也搭载了神经网络单元。u 高通从 2021 年开场也公开了NPU的研发，并且在最新两代骁龙 8xx 芯片上都有所表达，Page 18Inference On Device设备端推理设备端推理自动驾驶应用自动驾驶应用u NVIDIA去年发布自动驾驶开发平台DRIVE PX2，基于16nm FinFET工艺，功耗高达250W，采用水冷散热设计；支持12路摄像头输入、激光定位、雷达和超声波传感器；CPU采用两颗新一代NVIDIA Tegra处理器，当中包括了8个A57核心和4个Denver核心；GPU采用

18、新一代Pascal架构，单精度计算能力到达8TFlops，超越TITAN X，有后者10倍以上的深度学习计算能力。u Intel收购的Mobileye、高通收购的NXP、英飞凌、瑞萨等汽车电子巨头也提供ADAS芯片和算法。u 初创公司中，地平线的深度学习处理器(BPU，BrainProcessor Unit)IP及其自研雨果(Hugo)平台也是重点面向自动驾驶领域。Page 19Inference On Device设备端推理设备端推理机器视觉应用机器视觉应用u Intel收购的Movidius是其中的一家芯片提供商，大疆无人机、海康威视和大华股份的智能监控摄像头局部使用了Movidius的M

19、yriad系列芯片。u 目前国内做计算机视觉技术的公司中，商汤科技、Face+、云从、依图等，未来有可能随着其自身计算机视觉技术的积累渐深，局部公司向上游延伸去做CV芯片研发。u 国内还有如人人智能、智芯原动等创业公司提供摄像头端的AI加速IP及芯片解决方案。Page 20Inference On Device设备端推理设备端推理其他应用其他应用u 微软为自身VR设备Hololens而研发的HPU芯片，这颗由台积电代工的芯片能同时处理来自5个摄像头、一个深度传感器以及运动传感器的数据，并具备计算机视觉的矩阵运算和CNN运算的加速功能；u 语音交互设备芯片方面，国内有启英泰伦以及云知声两家公司，

20、其提供的芯片方案均内置了为语音识别而优化的深度神经网络加速方案，实现设备的语音离线识别；u 在泛IOT领域，NovuMind设计了一种仅使用33卷积过滤器的AI芯片，第一款芯片原型预计今年底推出，预计可实现耗能不超过5瓦进展15万亿次浮点运算，可以广泛应用于各类小型的互联网“边缘设备。Page 21全新架构全新架构类脑计算芯片类脑计算芯片u 类脑芯片：是指参考人脑神经元构造和人脑感知认知方式来设计的芯片，其目标是开发出打破冯诺依曼架构体系的芯片。这一领域目前仍处于探索阶段，如欧盟支持的SpiNNaker和BrainScaleS、斯坦福大学的Neurogrid、IBM公司的TrueNorth以及

21、高通公司的Zeroth等；国内Westwell、清华大学、浙江大学、电子科技大学等也有相关研究。u 总体来看，类脑计算芯片领域仍处于探索阶段，距离规模化商用仍有比较远的距离Page 22全新架构全新架构类脑计算芯片类脑计算芯片u IBM的TrueNorth，2021年公布。在一颗芯片上集成了4096个内核，100万个神经元、2.56亿个可编程突触，使用了三星的28nm的工艺，u 国内AI初创公司西井科技Westwell是用FPGA模拟神经元以实现SNN的工作方式，有两款产品：1、仿生类脑神经元芯片DeepSouth(深南)，第三代脉冲神经网络芯片SNN，2、深度学习类脑神经元芯片DeepWel

22、l(深井)，处理模式识别问题的通用智能芯片，Page 23中国中国AI芯片公司芯片公司名称名称成立成立时间时间估值估值AI产品产品技术特点技术特点投资方投资方中科寒武纪2016北京10亿美元2017Cambricon-1A基于CNN卷积神经网络阿里巴巴创投、联想创投、国科投资、中科图灵、元禾原点、涌铧投资联合投资，成为全球AI芯片领域第一个独角兽初创公司地平线机器人2015北京30亿人民币2016BPU自研AI架构IP(高斯、伯努利、贝叶斯架构)晨兴资本、高瓴资本、红杉资本、金沙江创投、线性资本、创新工场、真格基金、双湖投资、青云创投及祥峰投资等深鉴科技2016北京10亿人民币2017DPU基

23、于FPGA深度学习处理单元联发科、赛灵思、金沙江创投、高榕资本、清华控股、方和资本等。启英泰伦2015成都 CI1006语音识别ASIC芯片、支持DNN深度神经网络架构ROOBO、汇声信息等云知声2012北京25亿人民币2016UniOne、IVM、UniToy智能家电IVM芯片基于高通WIFI模组、UniToy儿童机器人基于Linux系统启明创投、高通投资、明富投资、磐谷创投等西井科技2015上海DeepSouthDeepWell类脑神经元芯片复兴同浩、源政投资、合力投资、十维资本、明赢资本人人智能2016北京FaceOS基于ARM的人脸机芯ARM、英诺天使基金云飞励天2014北京IPU视觉智能芯片松禾资本、深投控、红秀盈信、山水从容投资、投控东海、真格基金NovuMind2015北京深度学习加速器芯片ASIC真格基金、宽带资本、英诺天使基金、洪泰基金、臻云创投、极客帮创投等百度2001北京XPU基于FPGA的云计算加速芯片1987北京

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

AI芯片产业生态梳理课件

最新文档

相关资源

相关搜索