InfiniBand高速网络互连技术-课件

上传人:29 文档编号:240618231 上传时间:2024-04-25 格式:PPT 页数:158 大小:15.44MB
收藏 版权申诉 举报 下载
InfiniBand高速网络互连技术-课件_第1页
第1页 / 共158页
InfiniBand高速网络互连技术-课件_第2页
第2页 / 共158页
InfiniBand高速网络互连技术-课件_第3页
第3页 / 共158页
资源描述:

《InfiniBand高速网络互连技术-课件》由会员分享,可在线阅读,更多相关《InfiniBand高速网络互连技术-课件(158页珍藏版)》请在装配图网上搜索。

1、InfiniBand高速网络互连技术清风明月 2012年5月InfiniBand高速网络互连技术1.1.超级计算机系统及其互连结构超级计算机系统及其互连结构2.Infiniband互连网络的体系结构互连网络的体系结构3.3.在在HPC中的典型互连架构及应用中的典型互连架构及应用4.IB网络优化技术网络优化技术5.5.未来展望未来展望Lecture Lecture 1 1Lecture Lecture 2 2InfiniBand高速网络互连技术1.1.超级计算机系统及其互连结构超级计算机系统及其互连结构2.Infiniband互连网络的体系结构互连网络的体系结构3.3.在在HPC中的典型互连架构

2、及应用中的典型互连架构及应用4.IB网络优化技术网络优化技术5.5.未来展望未来展望4InfiniBand高速网络互连技术是美国田纳西大学、伯克利NERSC实验室和德国曼海姆大学一些专家为评价世界超级计算机性能而搞的民间学术活动,每年2次排出世界上实际运行速度最快的前500台计算机。(6月、11月)包件软数代性线是据依的名排Linpack测际实的试数据,而峰值浮点运算速度作为参考值列出。Linpack基准测试程序是一个可以分解和解答线性方程和线性最小平方问题的Fortran子程序集.于20世纪70年代到80年代初为超级计算机而设计测试出的最高性能指标作为衡量机器性能的标准 InfiniBand

3、高速网络互连技术中国TOP100总Linpack性能达到11.85 Pflops(2010年6.3PFlops),是2010年的1.88倍;跟全球TOP500相比,2011年6月全球TOP500排行榜第一名被日本的K-Computer夺得,2010年11月TOP500第一名的天河1A降为世界第二,但中国的机器份额首次取得第二名,仅次于美国;国家超级计算天津中心以国防科大天河1A再次蝉联中国TOP100第一名,Linpack性能2.57PFlops,峰值4.7PFlops;国家超级计算济南中心以国家并行计算机工程技术研究中心全国产神威蓝光力夺得中国TOP100第二名,Linpack性能795.9

4、TFlops,峰值1.07PFlops,神威蓝光是我国历史上首台全国产的千万亿次超级计算机;国家超级计算长沙中心以国防科大天河1A-HN力夺中国TOP100第三名,Linpack性能771.7TFlops,峰值1.34PFlops。全部机器的Linpack性能超过22.1Tflops是2010年9.6TFlops的2.3倍,比去年的1.41倍大幅提升。全部系统的峰值超过25.6TFlops,是2010年11TFlops的2.33倍,比去年的1.36倍大幅提升;排名前三的机器两套是CPU+GPU异构MPP;97个(2010年98个)系统都是机群架构,机群继续占据主导地位,在前10名里4台是CPU

5、+GPU体系架构,在TOP100中共有13套CPU+GPU异构机群。InfiniBand高速网络互连技术2009年年2010年年2011年年Rank1美洲虎美洲虎 Cray XT5-HENUDT TH-1AK computerRank2IBM BladeCenter美洲虎美洲虎 Cray XT5-HENUDT TH-1ARank3Cray XT5-HE曙光曙光“星云星云”美洲虎美洲虎 Cray XT5-HERank4IBM蓝色基因蓝色基因HP ProLiant曙光曙光“星云星云”Rank5NUDT TH-1Cray XE6HP ProLiant InfiniBand高速网络互连技术日本理化研究

6、所(RIKEN)高级计算科学研究院(AICS)和富士通共同研制每秒运算速度超越1亿亿次大关。Linpack测试的最大计算性能达到了10.51PFlops,也就是每秒钟1.051亿亿次浮点计算,这也是人类首次跨越1亿亿次计算大关。采用的处理器是富士通制造的SPARC64 VIIIfx,八核心,主频2.0GHz,二级缓存6MB,热设计功耗58W,峰值浮点性能128GFlops。为了获得更高性能,富士通还在其中加入了一系列高性能集群计算扩展,可以有效管理其共享二级缓存,并支持SIMD、每核心256位浮点寄存器、高级核心间硬件同步等等。处理器数量是88128颗,核心数量为705024个,占据864个机

7、柜。这些处理器通过名为“豆腐”(Tofu)的特殊6-D mesh/torus网络连接在一起,带宽5GB/s。同时,“京”的峰值计算性能也达到了11.28PFlops,执行效率为惊人的93.2%ASCI Springschool 20128InfiniBand高速网络互连技术K Computer:10.51 Petaflop/s10.51 Petaflop/s on Linpack 705024 SPARC64 cores(8 per die;45 nm)(Fujitsu design)Tofu interconnect(6-D torus)12.7 MegaWattInfiniBand高速网络

8、互连技术6D-mesh/ToursInfiniBand高速网络互连技术InfiniBand高速网络互连技术这是超过美国橡树岭国家实验室产品高达40的系统。达到每秒万亿次的峰值性能和每秒万亿次的实测性能。14336颗英特尔六核至强X5670 2.93GHz CPU、7168颗Nvidia Tesla M2050 GPU,以及2048颗自主研发的八核飞腾FT-1000处理器 天河一号A将大规模并行GPU与多核CPU相结合,在性能、尺寸以及功耗等方面均取得了巨大进步,是当代异构计算的典型代表。该系统采用了7168颗英伟达(NVIDIA®)Tesla M2050 GPU以及14,336颗CPU

9、。如果单纯只使用CPU的话,要实现同等性能则需要50,000颗以上的CPU以及两倍的占地面积。更重要的是,如果完全采用CPU打造,可实现2.507 Petaflops(千万亿次)性能的系统将消耗1200万瓦特的电力。多亏在异构计算环境中运用了GPU,天河一号A仅消耗404万瓦特的电力,节能效果高达3倍。二者之间的功耗之差足够满足5000多户居民一年的电力所需。13InfiniBand高速网络互连技术“天河一号”除了使用了英特尔处理器,还首次在超级计算机中使用了2048个我国自主设计的处理器。这款名为“飞腾-1000”的64位CPU。它利用65纳米技术设计生产,共有8个核心。中国首创了CPU和G

10、PU融合并行的体系结构。制造了先进的通信芯片,设计了先进的互联结构。160Gb/s,是国际上的商用IB的两倍。InfiniBand高速网络互连技术超级胖树结构InfiniBand高速网络互连技术InfiniBand高速网络互连技术InfiniBand高速网络互连技术InfiniBand高速网络互连技术Cray XT5:1+PFLeadership-class system for scienceDARPA HPCS:20 PFLeadership-class systemFY 2009FY 2011FY 2015FY 2018Future system:1 EF100250 PF美洲虎Infi

11、niBand高速网络互连技术Infiniband互连InfiniBand高速网络互连技术该机器获得科技部863计划支持,由国家并行计算机工程技术研究中心制造,于2011年9月安装于国家超算济南中心,全部采用自主设计生产的CPU(ShenWei processor SW1600),系统共8704个CPU,峰值1.07016PFlops,持续性能795.9TFlops,Linpack效率74.37%,总功耗1074KW。国家超级计算济南中心是科技部批准成立的全国3个千万亿次超级计算中心之一,由山东省科学院计算中心负责建设、管理和运营。是国内首台全部采用国产中央处理器(CPU)和系统软件构建的千万亿

12、次计算机系统,标志着我国成为继美国、日本之后第三个能够采用自主CPU构建千万亿次计算机的国家。InfiniBand高速网络互连技术全部采用国产的CPULinpack效率高达74.4%,而一般的千万亿次机都在50%左右采用液冷技术,节能高密度,在一个机仓(机柜)里可以装入1024颗CPU,千万亿次规模仅需要9个这样的机仓。计算机节点,在1U高的机箱中可以放入4个CPU板,每个板上可以装两颗16核的CPU。这就是神威蓝光的“心脏”:申威1600实物照 在计算节点中采用液冷(据说是使用500元1吨的纯净水)设计也是神威蓝光的一大技术特色,中间是铝制液冷散热板。国内三大系统比较Total cores:

13、0Total flop/s:0Opteron socketInfiniBand高速网络互连技术OpteroncoreTotal cores:1Total flop/s:3,600,000,000OpteroncoreTotal cores:2Total flop/s:7,200,000,0001.8 GHz3.6 Gflop/s64+64 KB L1 cache2 MB L2 cacheTotal cores:2Total flop/s:7,200,000,000Total cores:4Total flop/s:14,400,000,000LS21 BladeInfiniBand高速网络互连

14、技术Opteron socketOpteroncoreOpteroncoreOpteron socketOpteroncoreOpteroncore8 GBDDR2 memory10.7 GB/s8 GBDDR2 memory10.7 GB/sHyperTransport6.4+6.4 GB/sTotal cores:2Total flop/s:7,200,000,000Total cores:4Total flop/s:14,400,000,000InfiniBand高速网络互连技术InfiniBand高速网络互连技术QS22 BladeFlexIO,25 GB/s25.6 GB/s4 GB

15、 DDR2 memory25.6 GB/sPowerXCell 8i socketEIB,204.8 GB/sSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcorePPEcorePowerXCell 8i socketEIB,204.8 GB/sSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcorePPEcore4 GB DDR2 memoryInfiniBand高速网络互连技术InfiniBand高速网络互连技术InfiniBand 2:1 fat treeHT2100HT21

16、00InfiniBand 4X DDRHT x166.4 GB/sPCIe x82 GB/sIB2 GB/sInfiniBand高速网络互连技术BladeCenterBladeCenterBladeCenterBladeCenterCompute Unit(CU)InfiniBand高速网络互连技术Total cores:480Total flop/s:5,395,200,000,000Total cores:7,200Total flop/s:80,928,000,000,000InfiniBand高速网络互连技术Total cores:7,200Total flop/s:80,928,00

17、0,000,000RoadrunnerTotal cores:122,400Total flop/s:1,375,776,000,000,000InfiniBand高速网络互连技术InfiniBandInfiniBand高速网络互连技术高速网络互连技术今年预计BlueGene/Q“Sequoia”其峰值性能可达到20petaflops,而其升级版将是首个超过10万万亿次浮点计算的超级计算机,达到107petaflops,是目前世界最快K Computer的12倍。InfiniBand高速网络互连技术Sequoia超级计算机是IBM正在为Lawrence Livermore国家实验室研制的一种超

18、级计算机,而这种计算机中使用的Blue Gene/Q处理器就将采用IBM在Hot Chips大会上发表的论文中披露的这种新部件。Sequoia将在2012年完工,有望提供20petaFLOPs(peta1015)的强大性能。当Sequoia完工时,这台超级计算机可能成为世界上功能最强大的系统之一。InfiniBand高速网络互连技术自1946年以来,计算机近70年有了惊人的发展性能:(加法)速度提高了5个数量级计算机性能以大约每年35%的速度提高价格:今天$1000的机器相当于60年代中$106的机器,这里同性能计算机的价格比,改善了个数量级。InfiniBand高速网络互连技术从197119

19、71年第一颗微处理器Intel 4004Intel 4004问世以来,4040年间处理器芯片集成的晶体管数目从2300个发展到今天的数十亿个,处理器频率从不到1MHz1MHz发展到今天最高接近5GHz5GHz,与英特尔4004相比,如今下一代英特尔酷睿处理器的性能是其35万倍,每个晶体管的能耗却降低了5千倍。同期,晶体管的价格下降了约5万倍。InfiniBand高速网络互连技术InfiniBand高速网络互连技术InfiniBandInfiniBand高速网络互连高速网络互连技术技术CAGR=1.91st Pasadena Petaflops WorkshopGFlopsExaFlopsPet

20、aFlopsTeraFlopsFigure courtesy of Peter KoggeFigure courtesy of Peter KoggeInfiniBand高速网络互连技术时间2020年2030年2050年器件CMOS纳米量子器件量子、生物分子计算速度Exaflops(1018)Zettaflops(1021)Yottaflops(1024)并行度109-101011-10121013-1015内存容量25PBEB(1018B)ZB(1021B)功耗40MWMWMW用途核聚变模拟蛋白质折叠等地球模拟生命科学等MEMS优化脑科学模拟等2010202020302050InfiniBa

21、nd高速网络互连技术TOP500 Nov 2011,IB占42%TOP10中有5家采用IB(4/5/7/9/10)TOP20中有8家TOP100中有55%采用IB基于GPU混合系统中有92%采用IBInfiniBand高速网络互连技术在TOP100机器的IO互连中55%采用IBInfiniBand高速网络互连技术InfiniBand高速网络互连技术InfiniBandPCI-Express10GigEGigEMyrinet DMyrinet EData Bandwidth(Large Messages)950MB/s900MB/s100MB/s245MB/s495MB/sMPI Latency

22、(Small Messages)5us50us50us6.5us5.7usHCA Cost(Street Price)$550$2K-$5KFree$535$880Switch Port$250$2K-$6K$100-$300$400$400Cable Cost(3m Street Price)$100$100$25$175$175InfiniBand高速网络互连技术InfiniBand高速网络互连技术1.1.超级计算机系统及其互连结构超级计算机系统及其互连结构2.Infiniband互连网络的体系结构互连网络的体系结构3.3.在在HPC中的典型互连架构及应用中的典型互连架构及应用4.IB网络

23、优化技术网络优化技术5.5.未来展望未来展望InfiniBandInfiniBand高速网络互连技术高速网络互连技术高带宽目前主流的单链路传输能力40Gbps,10GB以太网不可比拟超低延时应用程序之间通信延时小于1 us高可靠性、低误码率、自管理的网络链路级流控拥塞控制InfiniBand高速网络互连技术Host Channel Adapters(HCA)Target Channel Adapters(TCA)SwitchesRoutersInfiniBand高速网络互连技术多个子网,每个子网是一个独立的路由域子网之间通过交换机互连,一般的HPC只使用一个子网。InfiniBand高速网络互

24、连技术InfiniBand高速网络互连技术Blade/RackServersStorageSwitchSWITCHInfiniBand高速网络互连技术InfiniBand高速网络互连技术两种类型的CAHCA,通过IB verbs为用户提供操作TCA,IBA未定义TCA接口语义CA是一个具备一定保护功能的可编程DMA引擎Virtual Lane(VL)Local ID(LID)独立的发送和接收缓冲区内存翻译和保护内存翻译和保护子网管理代理子网管理代理GUIDInfiniBand高速网络互连技术子网内部路由设备交换机端口具备LID,具有HCA特性。子网内部的每个端口分配一个或多个唯一的LID通过报

25、文Local Route Header标识目标端口LID,交换机根据该地址信息交换到目标端口提供单播和多播路由支持多路径(负载均衡,链路容错)InfiniBand高速网络互连技术InfiniBand高速网络互连技术InfiniBand高速网络互连技术InfiniBand使用串行差分链路传输链路宽度1x One differential pair per Tx/Rx 4x Four differential pairs per Tx/Rx8x Eight differential pairs per Tx/Rx12x-Twelve differential pairs per Tx and pe

26、r Rx链路速度Single Data Rate(SDR)-2.5Gb/s per lane(10Gb/s for 4x)Double Data Rate(DDR)-5Gb/s per lane(20Gb/s for 4x)Quad Data Rate(QDR)-10Gb/s per lane(40Gb/s for 4x)Fourteen Data Rate(FDR)-14Gb/s per lane(56Gb/s for 4x)Enhanced Data rate(EDR)-25Gb/s per lane(100Gb/s for 4x)目前多采用4X链路InfiniBand高速网络互连技术La

27、ne的概念,1x即1 lane,类似于PCIE lane1 x Link4 x Link12 x LinkInfiniBand高速网络互连技术串行高带宽链路SDR:10Gb/s HCA linksDDR:20Gb/s HCA linksQDR:40Gb/s HCA linksFDR:56Gb/s HCA linksEDR:100Gb/s HCA linksInfiniBand高速网络互连技术InfiniBand高速网络互连技术InfiniBand高速网络互连技术Message长度最大2GbyteMTU尺寸从256byte到最大 4KbyteInfiniBand高速网络互连技术每个节点(HCA端

28、节点和交换机)必须拥有一个全局唯一的64位ID(GUID),类似于以太网MAC地址。同时,为了方便路由,在每个子网内为节点分配一个本地ID(LID)-16 bits,子网内线性编号 GUIDGUIDGUIDGUIDGUIDGUIDGUIDGUIDLID=1LID=2LID=3LID=4LID=5LID=6LID=7LID=8InfiniBand高速网络互连技术InfiniBand高速网络互连技术发送和接收队列是成对出现的。InfiniBand高速网络互连技术InfiniBand高速网络互连技术InfiniBand高速网络互连技术基于信用(Credit)的链路级流控反压原理InfiniBand高

29、速网络互连技术可靠与不可靠面向连接与数据报(非面向连接)InfiniBand高速网络互连技术服务类型服务类型面向连接面向连接是否应答是否应答传输协议传输协议可靠链接可靠链接是是IBA不可靠链接不可靠链接是否IBA可靠数据报可靠数据报否是IBA不可靠数据报不可靠数据报否否IBA原始数据报原始数据报否否RAWInfiniBand高速网络互连技术InfiniBand高速网络互连技术IB网络维持一个子网管理器Subnet Manager(SM)是一个独立软件通过与每个节点上的子网管理代理通信的方式来管理子网InfiniBand高速网络互连技术每个子网必须有一个子网管理器子网管理器的作用:管理IB网络中

30、的所有节点,包括端节点HCA和交换机SW子网网络拓扑发现 为每个节点分配一个本地ID(LID),用于路由为交换机分配转发表,用于网络路由监控子网状态,当网络发生改变时负责重新分配路由表。维护网络正常运转InfiniBand高速网络互连技术SM是IB网络中一个重要元素负责配置和管理交换机、路由器、HCA。SM可以被实现在HCA或者交换机等设备上。一个子网内可以有多个SM,其中一个SM为主,其余为备份SM功能进行子网拓扑发现产生子网前缀,为端口分配LID配置每个交换的LID,配置转发表提供节点和服务的数据库服务InfiniBand高速网络互连技术InfiniBand高速网络互连技术InfiniBa

31、nd高速网络互连技术相对于以太网的分布式管理,在Infiniband网络中,SM通过SMA对子网进行集中管理。这种方式结构简单易于管理。为了防止单点失效问题,在Infiniband中可存在多个SM,一个主SM,多个备份SM。备份SM检测到主SM死亡时,会选择一个备份SM成为主SM,接管子网管理权。InfiniBand高速网络互连技术主SM是IB子网初始化和配置的关键因素。主SM的选择也是初始化过程的一部分。主SM的主要作用是:发现子网的物理拓扑结构。为每个端节点,交换机和路由器分配本地标识符LID。确定各端节点之间的合理路径。扫描子网,发现拓扑改变处理节点加入和节点删除。InfiniBand高

32、速网络互连技术子网探测主要是指在Infiniband子网初始化时,SM通过SMA获得子网内各节点信息。主要的信息就是各个节点的GUID,节点类型,端口信息以及各节点之间的连接关系。在子网初始化完毕后,SM还会定时的检查网络拓扑是否发生变化(某个交换机端口的状态发生改变)。交换机检测到自己的某个端口状态发生改变,可以通过Trap机制主动向SM报告拓扑改变。InfiniBand高速网络互连技术子网发现的过程:子网启动时,SM发送包含Get方法的直接路由SMP,SMA收到后会响应一个SMP,从而找到一个新的节点,然后SM通过这个新节点向外辐射只到找到所有的设备。InfiniBand高速网络互连技术对

33、于一个已经初始化的子网,如果SM发现某一个交换机的一个端口的状态从DOWN变为UP,则说明有设备加入到子网中。InfiniBand高速网络互连技术对于一个已经初始化的子网,如果SM发现某一个交换机的一个端口的状态从UP 变为DOWN,则说明有设备从子网中移除。InfiniBand高速网络互连技术在规范中,并没有规定LID的分配规则,只要满足上述的性质即可。具体实现时,LID的分配与特定的路由算法有关。最简单的分配方式是按照设备的发现顺序,从1开始连续分配。InfiniBand高速网络互连技术路由计算主要是指SM在得到子网拓扑以后,确定每两个节点之间的路径的过程。SM将这个计算结果以转发表的形式

34、发布给交换机,使数据包沿着计算好的路径传递。转发表是一个LID,PORT组成的表,交换机接收到一个LID路由的数据包时,通过查找目的LID对应的表项,从而确定应该从那个端口转发这个数据包。InfiniBand高速网络互连技术InfiniBand高速网络互连技术由子网管理器(SM)发起从SM软件驻留的节点开始,按照宽度优先(BFS)、或深度优先(DFS)方法逐个发现,将发现好的节点加入拓扑链表中在进行子网发现的过程中,为每个已发现的节点分配一个本地ID(LID),为后继的路由做准备InfiniBand高速网络互连技术LID=1LID=1LID=2LID=2LID=3LID=3LID=4LID=4

35、LID=5LID=5LID=6LID=6 LID=7LID=7LID=8LID=8InfiniBand高速网络互连技术LFT:Lineral Forward Table(线性转发表)首先,根据报文头的SL查找SL-to-VL-Table(服务等级映射表),获得该报文的转发的VL通道。而后,根据目的DLID查找LFT线性转发表,获取下一跳的端口号。LFTLFT(DLID to(DLID to Port)Port)InfiniBand高速网络互连技术SW2SW2cn0cn0cn1cn1cn2cn2cn3cn3LID=2LID=2LID=3LID=3LID=4LID=4LID=5LID=5LID=6

36、LID=6目的LID输出端口112253631 12 23 34 41 12 23 34 4目的LID输出端口12225364SW1SW1线性转发表线性转发表SW2SW2线性转发表线性转发表LID=1LID=1SW1SW1查表查表查表查表SMSMInfiniBand高速网络互连技术子网管理器SM发现拓扑变化主动发现,通过子网扫描被动发现,节点的代理软件主动上报自己的故障端口当拓扑发生改变时,更新路由表InfiniBand高速网络互连技术SW2SW2cn0cn0cn1cn1cn2cn2cn3cn3LID=2LID=2LID=3LID=3LID=4LID=4LID=5LID=5LID=6LID=6

37、目的LID输出端口112253641 12 23 34 41 12 23 34 4目的LID输出端口12225364SW1SW1线性转发表线性转发表SW2SW2线性转发表线性转发表LID=1LID=1SW1SW1SMASMASMSMSMASMA链路故障报告链路故障报告InfiniBand高速网络互连技术SW2SW2cn0cn0cn1cn1cn2cn2cn3cn3LID=2LID=2LID=3LID=3LID=4LID=4LID=5LID=5LID=6LID=6目的LID输出端口112253631 12 23 34 41 12 23 34 4目的LID输出端口11215364SW1SW1线性转发

38、表线性转发表SW2SW2线性转发表线性转发表LID=1LID=1SW1SW1SMASMASMSMSMASMA更新转发表更新转发表InfiniBand高速网络互连技术由OpenFabric组织制定IB规范RDMA NICRDMA NICR-NICR-NICHost Channel Host Channel AdapterAdapterHCAHCAUser Direct Access User Direct Access Programming LibProgramming LibUDAPLUDAPLReliable Datagram Reliable Datagram ServiceServic

39、eRDSRDSiSCSI RDMA Protocol iSCSI RDMA Protocol(Initiator)(Initiator)iSERiSERSCSI RDMA Protocol SCSI RDMA Protocol(Initiator)(Initiator)SRPSRPSockets Direct Sockets Direct ProtocolProtocolSDPSDPIP over InfiniBandIP over InfiniBandIPoIBIPoIBPerformance Manager Performance Manager AgentAgentPMAPMASubne

40、t Manager Subnet Manager AgentAgentSMASMAManagement DatagramManagement DatagramMADMADSubnet Subnet AdministratorAdministratorSASACommonInfiniBandiWARPKeyKeyInfiniBand HCAInfiniBand HCAiWARP R-NICiWARP R-NICHardwareSpecific DriverHardware SpecificDriverConnectionManagerMADInfiniBand Verbs/APISA Clien

41、tConnectionManagerConnection ManagerAbstraction(CMA)User Level Verbs/APISDPIPoIBSRPiSERRDSUDAPLSDP LibraryUser Level MAD APIOpen SMDiagToolsHardwareHardwareProviderProviderMid-LayerMid-LayerUpper Upper Layer Layer ProtocolProtocolUser User APIsAPIsKernel SpaceUser Space NFS-RDMARPCClusterApplication

42、 Application Level Level SMAR-NIC Driver APIClusteredDB Access(Oracle10g RAC)SocketsBasedAccess(IBM DB2)VariousMPIsAccess to FileSystemsBlockStorageAccessIP BasedAppAccessApps&AccessMethodsfor usingOF StackInfiniBand高速网络互连技术SRPMiniportStorPortSDP*SDPSPI*ApplicationsUserKernelWindowsApplicationsOF Wi

43、ndowsHardware*Windows Compute Cluster Server 2003*Will be available in the futureWSD SAN ProviderManagementToolsHCA HardwareAccess LayerVerbs Provider DriverVerbs Provider LibraryAccess Layer LibraryKernel BypassWinsock Socket SwitchWinSockProviderMPI2*IPoIBNDISTCP/UDP/ICMPIPVNIC*InfiniBand高速网络互连技术K

44、ernelKernelUser User InfiniBand高速网络互连技术InfiniBand高速网络互连技术InfiniBand高速网络互连技术每个端结点HCA的每个IB端口都分配一个独立的IP地址,支持IP v4/v6地址格式结点间通信,可使用IP地址标识 Node DIPd IPs Node A AIPa IPpIPr IPcNode CIPq IPbNode BIB switched networkIPoIB UD broadcast domainIPoIB Connected networkInfiniBand高速网络互连技术IB网到FC网之间采用透明网桥GatewayHostF

45、ibre ChannelHostHostInfiniBandInfiniBand高速网络互连技术NPIV N_PortsFC Begins HerePhysical View:Physical View:Handling initiators loginsActs as an NPIV N_PortReflects F_LOGI as F_DISCVirtualizedServerLogical View:Logical View:NPIV HBAFibre Fibre ChannelChannelHostHostHostFCoIB to FCFCoIB to FCGatewayGateway

46、Fibre Fibre ChannelChannelInfiniBandInfiniBand“PCIe extension”InfiniBand高速网络互连技术IB to FCStrip IB headersPayload contains entire FC frameFC to IBD_ID lookup to retrieve addressing LID,QPN,etc.Encapsulate FC frame as UD payloadIB CRCIB HeadersFC FrameFC FrameIB CRCIB HeadersFC FrameFC FrameInfiniBand高

47、速网络互连技术1.1.超级计算机系统及其互连结构超级计算机系统及其互连结构2.Infiniband互连网络的体系结构互连网络的体系结构3.3.在在HPC中的典型互连架构及应用中的典型互连架构及应用4.IB网络优化技术网络优化技术5.5.未来展望未来展望InfiniBand高速网络互连技术9 x Fabric Boards(single and double dense)2 x Fan Units6 x Power Supplies2 x Management Boards18 x Line Boards19UInfiniBand高速网络互连技术两级胖树结构或者“折叠的clos网络”L2L118

48、InfiniBand高速网络互连技术Topologies that are mainly in use for large clusters Fat-Tree 3D Torus MashInfiniBand高速网络互连技术3D TorusAn oversubscribed network,easier to scaleFit more applications with localityInfiniBand高速网络互连技术Fat-tree(also known as CBB)Flat network,can be set as oversubscribed network or notIn o

49、ther words,blocking or non blocking Typically the lowest latency network 胖树结构是互连已知硬件数量的一种通用方法。胖树相对传统树,越靠近根部带宽越大。如果要使网络是非阻塞的,每层的总带宽都要相同。InfiniBand高速网络互连技术InfiniBand高速网络互连技术利用多个“IB交换机”构造大规模IB网络每个IB交换机内部是胖树结构InfiniBand高速网络互连技术InfiniBand高速网络互连技术InfiniBand高速网络互连技术CoreFabric8x SFS TS740288 ports eachEdge2

50、56x TS12024-ports each18 Compute Nodes)18 Compute Nodes)8192 Processor 60TFlop SuperCluster2048 uplinks(7m/10m/15m/20m)InfiniBand高速网络互连技术SANLAN2 96-portTS-27023 24-port TS-120512 Server Nodes2 TS-360 w/Ethernet and Fibre Channel GatewaysCore FabricEdge FabricGRID I/OExisting NetworksFibre Channel an

51、d GigE connectivity built seamlessly into the cluster520 Dual CPU Nodes1,040 CPUsInfiniBand高速网络互连技术Tungsten 2:520 Node SupercomputerCore FabricEdge Fabric6 72-portTS27029 24-port TS120174 uplinkcables512 1mcables18 Compute Nodes18 Compute Nodes Parallel MPI codes for commercial clients Point to poin

52、t 5.2us MPI latencyDeployed:November 2004InfiniBand高速网络互连技术Fault Tolerant Core FabricEdge Fabric12 96-portTS-27089 24-port TS-1201,068 5m/7m/10m/15muplink cables1,066 1mcables12 Compute Nodes12 Compute Nodes1,066 Fully Non-Blocking Fault Tolerant IB Cluster1Direct-attach storageServers with unused s

53、torage,uncontrolled growthStorage dedicated to one server Decentralized backup2Fibre Channel SANsEliminates islands of storageIncreases utilization and availabilityHighest performance levels6Fibre Channel over EthernetConverges LAN and SAN traffic on single link Lowers operational costs(cabling and

54、Converged Network Adapters)Scalability for virtual environments 4iSCSI/NASConsolidates small or isolated serversOffers low-cost server attachment NAS is ideal for files and unstructured data FCIP/iFCPConnects geographically dispersed SANsLow cost and easy to deploy for disaster recovery solutions 35

55、InfinibandLow latency,high bandwidthIdeal for high-performance computing(HPC)InfiniBand高速网络互连技术NewNetworkedstorageFibre ChannelSAN2MainframeServersVMware1Rack-mounted servers with CNAs6Fibre Channelover Ethernet4iSCSI/NASRemote/isolatedservers3FCIP/iFCPDisaster recovery site5InfinibandServer Network

56、 HPCInfiniBand高速网络互连技术SANServer FabricLAN/WANServer ClusterFibre Channel to InfiniBand gateway for storage accessEthernet to InfiniBand gateway for LAN accessSingle InfiniBand link for:-Storage-NetworkInfiniBand高速网络互连技术ManagementConsoleSANNASNASNAStapeInfiniBand高速网络互连技术InfiniBand高速网络互连技术1.1.超级计算机系统及

57、其互连结构超级计算机系统及其互连结构2.Infiniband互连网络的体系结构互连网络的体系结构3.3.在在HPC中的典型互连架构及应用中的典型互连架构及应用4.IB网络优化技术网络优化技术5.5.未来展望未来展望InfiniBand高速网络互连技术GPUDirectCORE-DirectOffloadingCongestion ControlAdaptive RoutingManagementMessaging AccelerationsAdvanced Auto-negotiationMPIInfiniBand高速网络互连技术InfiniBandInfiniBand高速网络互连技术高速网络

58、互连技术通过子网管理器SM(软件)集中管理每个节点(host和switch)驻留管理代理SMA,与SM交换信息,实现路由和拥塞控制功能InfiniBand高速网络互连技术寻径过程,为两个机器之间选择一条通信路径。目标:最小代价(最小跳步数)无死锁、活锁平衡网络流量负载避免拥塞,避免通信“热点”竞争InfiniBand高速网络互连技术规则网络网络具有规则的拓扑图结构(ring,meshes,Fat-tree,hypercube,etc)易于优化不规则网络不规则的网络图形状拓扑发现比较关键需要精心设计路由算法,保证无死锁InfiniBand高速网络互连技术Oblivious(确定性路由)为每个源和

59、目的对分配一个路由,而不考虑网络流量。这种路由具有一定的吸引力attractive,因为其路由可以事先计算出来,尽管计算的代价可能很高。Adaptive(自适应路由)力图根据当前流量来调节节点间的路由。这种路由能够对全局网络的通信状况迅速作出反应,并实时改变路径以达到流量均衡的目的,通常会使用快速但并非最优化的算法来实现。InfiniBand高速网络互连技术IB网络路由是确定性路由(oblivious)因为IB网络使用基于目标LID的路由转发表在网络构建之初已经形成,转发表是线性的:目的地的LID号 下一跳输出端口任意网络上的确定性路由(oblivious)的最优化问题是NP-hard问题ob

60、livious路由算法通常是保守的,即不需要监控网络实时状态,可采用完全分布式实现方式。InfiniBand高速网络互连技术IBA体系结构能够实现高性能互连基于IBA互连的大型系统通常可允许包含几千个结点。IBA并不受限于某种网络拓扑结构,但最常用的IB网络部署都是用k-ary n-tree拓扑(例如,fat-tree,clos)Minhop最小跳数算法(默认路由算法)Updn Up/down 算法Ftree胖树算法Lash算法Dor算法从文件中加载路由表InfiniBand高速网络互连技术使用可用于所有网络拓扑,不能避免credit-loop-deadlock,但最快基 本思想为每个host

61、对计算最短路径负载平衡器:通过均分流经每个端口的路径的数量,平衡每个交换机的输出端口上的负载重量。可随意剔除某些指定端口优化在每个目的端口分组中:仅使用minhop端口,优先使用那些没有包含到目的路由集中的那些端口。InfiniBand高速网络互连技术InfiniBand高速网络互连技术cncncncncncncncncncnInfiniBand高速网络互连技术为每条链路指定一个UP方向,一个down方向为了避免死锁,同时能够利用所有的链路带宽,定义如下的UP*/DOWN*规则:一条合法的路由必须经历0个或多个up方向的链路,而后经历0个或多个down方向的链路;同时,一个报文不允许在经过do

62、wn方向的链路后再次经历up方向链路。为避免死锁,添加转弯约束:不允许 updownup方向的路由InfiniBand高速网络互连技术InfiniBand高速网络互连技术UP*/DOWN*算法的主要弱点是在生成树的根部会产生通信热点hot spots,因为它是基于树的算法,而不允许使用最短路径路由。另一个弱点是在转弯次数的限制上缺乏一个上限,转弯次数限制依赖于不同的拓扑。InfiniBand高速网络互连技术InfiniBand高速网络互连技术根据虚通道VL,将物理网络划分成多个同构的虚拟网络。InfiniBand高速网络互连技术即使对于有128个交换芯片的大网络,虚拟层次数目也不超过6这种对网

63、络流量的分离,对路由效率有很大提升,该方法可用来提升不规则网络的性能,负载均衡和保证最短路径,保证无死锁。算法实现简单,部署这种算法除了使用已有的虚通道技术外,基本上不需要对交换机做任何特殊处理。InfiniBand高速网络互连技术InfiniBand高速网络互连技术InfiniBand高速网络互连技术dropdroprecoveryrecoveryInfiniBand高速网络互连技术拥塞通知,反压过程在报文中设置“拥塞通知标记位”(ECN)ECN分为Forwarding ECN和Back ECNInfiniBand高速网络互连技术IB网络本身的拥塞管理和QoS机制链路层基于信用(credit

64、)的流控机制拥塞通知,反压过程基于SL(服务等级)的QoS机制优化的IB网络路由算法保证链路均衡动态调整部分路由,避免拥塞或通信“热点”基于“网络拓扑信息感知”的作业管理和任务调度机制InfiniBand高速网络互连技术InfiniBand高速网络互连技术GPUDirectGPUDirectNo GPUDirectNo GPUDirectInfiniBand高速网络互连技术CPUGPUChipsetGPUGPUMemoryMemoryInfiniBandInfiniBandSystem System MemoryMemory1 2CPUGPUChipsetGPUGPUMemoryMemoryI

65、nfiniBandInfiniBandSystem System MemoryMemory12TransmitReceiveInfiniBand高速网络互连技术快速的GPU-to-GPU通信GPU通信代价降低30%CPUGPUChipsetGPUGPUMemoryMemoryInfiniBandInfiniBandSystem Memory1CPUGPUChipsetGPUGPUMemoryMemoryInfiniBandInfiniBandSystem Memory1TransmitReceiveInfiniBand高速网络互连技术分子动力学模拟来自Mellanox公司的测试结果InfiniBand高速网络互连技术融合“云计算”GPU远程共享GPU云InfiniBand高速网络互连技术1.1.超级计算机系统及其互连结构超级计算机系统及其互连结构2.Infiniband互连网络的体系结构互连网络的体系结构3.3.在在HPC中的典型互连架构及应用中的典型互连架构及应用4.IB网络优化技术网络优化技术5.5.未来展望未来展望

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!