北邮计算机系统结构WINDLX模拟器实验报告

上传人:沈*** 文档编号:86392493 上传时间:2022-05-07 格式:DOC 页数:33 大小:914KB
收藏 版权申诉 举报 下载
北邮计算机系统结构WINDLX模拟器实验报告_第1页
第1页 / 共33页
北邮计算机系统结构WINDLX模拟器实验报告_第2页
第2页 / 共33页
北邮计算机系统结构WINDLX模拟器实验报告_第3页
第3页 / 共33页
资源描述:

《北邮计算机系统结构WINDLX模拟器实验报告》由会员分享,可在线阅读,更多相关《北邮计算机系统结构WINDLX模拟器实验报告(33页珍藏版)》请在装配图网上搜索。

1、实验报告学 院:计算机学院课程名称:计算机系统结构实验名称: WINDLX模拟器实验班 级:姓 名:学 号:实验一 WINDLX模拟器安装及使用实验二指令流水线相关性分析一. 实验类别验证实验二. 实验目的通过使用 WINDLX模拟器,对程序中的三种相关现象进行观察,并对使用专用通路,增加运算部件等技术对性能的影响进行考察,加深对流水线和RISC处理器的特点的理解三. 实验环境Windows XP操作系统WinDLX模拟器四. 实验原理指令流水线中主要有结构相关、数据相关、控制相关。相关影响流水线性能。(1) 数据相关定义:原有先后顺序的两条指令(11, 12)在对共享变量(位置)进行读、写时

2、,指令流水线中实际完成的读、写顺序与原有顺序不一一 致,导致流水线输出错误三类数据相关:写读(WR)相关读写(RW)相关写写(WW)相关解决方法技术:1. 使某些流水线指令延迟、停顿一或多个周期。2. 双端口存储器:如果指令和数据放在同一个存储器。3. 设置两个存储器:一个数据存储,一个为指令存储器4. 软件优化编译:通过指令重新排序,消除数据相关。5. 定向技术:又称旁路技术或专用通路技术,是使后续指令提 前得到前指令的运算结果(适合ALU类指令)(2 )结构相关定义:如果某指令在流水线重叠执行过程中,硬件资源满足不了指令重叠执行的要求,会产生资源冲突或竞争,称为流水线结构相关解决方法技术:

3、1. 延迟技术:使某些指令延迟、停顿一或多个时钟周期2. 双端口存储器:允许同时读两个数据或指令3. 设置双存储器(哈弗结构):一个数据存储,一个指令存储4软件优化编译:通过指令重新排序消除结构相关。(3 )控制相关定义:控制相关是指因程序执行转移类指令而引起的冲突相关。包括无条件转移、条件转移、子程序调用、中断等,它们属于分支指令,执行中 可能改变程序方向,造成流水线断流。解决方法技术:1、静态分支技术静态转移预测技术(猜测法);延迟转移;提前形成条件码,生成转移目标地址;改进循环程序;2、动态分支预测技术转移历史表BHT;转移目标缓冲栈(BTB);转移目标指令缓冲栈BTIB五. 实验步骤(

4、1)观察程序中出现的数据/控制/结构相关。指出程序中出现上述现象的指令 组合。(2)考察增加浮点运算部件对性能的影响。(3)考察增加forward部件对性能的影响。(4)观察转移指令在转移成功和转移不成功时候的流水线开销。注意:除(2)以外,浮点加、乘、除部件都只有一个;本问题中所有浮点运算部件的延时都请设定为 4个周期。六. 实验过程在开始模拟之前,将fact.s和input.s加载至 WinDLX中。加载完后点击Code后可以看到如下图所示。证明加载成功,即可进行 以下实验。(1 )观察程序中出现的数据/控制/结构相关。指出程序中出 现上述现象的指令组合。1.1.数据相关如图所示ML JU

5、L 1 交h-DrlVih|plJ rJML JUL WLh-:d;-LSJ:却S丹田沖叫左ml omsk/hr屮4車耳山|.二M:riXI4iju-#:(!- ce =:5.Erl0lj4.h in.El Ihl7wrn-ri=Mrtrdirnng ir $ P-rillP-thJLllimim昂対0KIrwruTis-hfunur 呂片审Q J?2:4 CClXi:rT-l IlipiQ.2CC1CGL厂血山.1培1M:l iHj |i晴讪TiM4 si ri iOCiOLM:L JJLiTOI-Jiuams w=is Jd i4 ULJinpHlLoa*U-iluijHIJ MtMtu郎

6、皿曲Urf汨ILK9000 ID仝円|耳冉CM-CMl7e血 Hi iJUlIF申J hniihrw-rTiriTi如bi 旳 3.W30LM J .U J IME Mi lrluriilLl Llncir Ljrl.e DikfruIdb jdiutis I*1 Cvciti却T iZJiOOkKM 抽 il ifl JMI刈MqfS.rJJlea trtij grpii ln=片-IInf nrMat ion about seql r Qxaiseqi rbJ.UxaIFIDACT.; riptk丄cop+CbriCede- axG0G5m0aCyde: -2(1I ciiririHalc

7、d 国sou話和 IpEVde$: 1(2)In FipelriEIn PoFhre-StBrp IDIMAJRPC lshpJ: Loopj 0x()& M卜阿Fist gefee -ZFsf Rjczr-MMHiiPNA=i(-Ox60jOOOd|PC48Il Stal(s because of RAW-Mazard vylliLuiaOi2)NoStals required.IntEXMEMWBlbu r3,0 x 0(r2)要在WB周期写回r3中的数据;而下一条指令seqi r5,r3,0 x a要在intEX周期中读取r3中的数据。上述过程发生了 WR冲突,即写读相关。为了避免此类冲

8、突,seq r5,r4,0 x a的intEX指令延迟了一个周期进行。则发生数据相关的指令为MOOD 口囲0m20C21O3add r2iD.fc1C34nnnnDnGrliMinnncadd rljflJhcO山COODOl 70&flOODC170OmOJCGODJc MCt/叫0OOOOC17camaoooN id5 niMJi.FinjhrfjooDirisokE30O3D IFsub r3j3,Utlj M.lr-li_i UMrrfi4i-iffilci剂n 1btrd时姑旳1 F-K.IFrt.1rumrin-rr 打 2J: n凶皿toi*OlC 4吋:仰:孔i * 4 口:d

9、PrrP/dje|lClJ2创 1 Illi. - illi h 川 iri.iwSnMjfl ihlLtiOOi 北Lf4U-L01Er 邛 Lk5a-iimiLiaigUdiKfi爪单CMJLOQjl4i3址IF;nSmR2|KIL2血*.刖.miifQi .CX-1OC( ME d jJ jt MtOJplkpJL n匕甲占HDJ1I IF kt沁addnJOilXO可知第0*00000130条指令jfact.Loop 为循环指令,指令在 EX时刻才能判别指令是否发生转移,此时发生了控制相关。如下所示,此时指令跳转成功,故 顺序取出的指令必须中断,并且转向取出转移到的指令。jfact.L

10、oop 在EX时发现跳转成功,则在EX阶段马上结束指令顺序取出的指令sd PrintfValue(rO),fO ,转而执行led fO/4 指令的取指阶段ID。由于此控制相 关使得流水线断流一个时钟周期。1.3结构相关ir“血:羽In PipdhcIMAAi.PC (-rput.L0Kl8|IR =0xZ 0420001 Ff PC+4 |=wptt.LoDpi-Oxlc2 5 副阁 because glructKdl Hazard上图表明了 addi r2,r2,0 x 1的详细信息。该指令与它前一条指令addr1,r1,r3发生了结构相关。并且由于此处的冲突,需要暂停2个周期。在ID段暂停

11、后,则开始进图intEX段。所以这条指令(addi r2,r2,0 x 1)你不能进入ID流水段,译码部分占用,发生了结构相关。该部分的指令为:UWIUUU 2 0x00X01001UXHaUUUI4UX23E30U3UDnezra;npy.rmsnsubi rJjSOxiQuujjutmUXUJ24U8IS hnJtXlrrulbj rl .t1j4OxOOXO83QxOD230B20 IDadd r1 jl j3nxnnnntFhownnn fadd i? j? QkIn-riririrrr qii riin * I vm(2) 考察增加浮点运算部件对性能的影响取 N=12设置浮点运算部件

12、的配置。由于实验手册上面要求Delay=4,所以我们将Delay这一栏改成4,而Count可以任意,为了对比,我们第一次浮点运算部件取全部为2,第二次浮点运算部件取全部为 4分别运行50个cycles后,数据对比如下:Fluat -i-ELg: F uxjit St a.ge Conf igui a.FLoaLiiit Puinl Stage Configuia.Addition Urxs;Ciir*Del*E4MUbpIcaliDri Unia:24Drvision Unis:?4Njmber of Units in each Elast: 1 t- M 3,Deaii (Clock Cyc

13、led 1 - N - 50Aririilinn UrilsMult中lication Uritti.D v/iiion U riUCom r.WARN IMG: Ifycu change- ih* uLit tht piocectarvuil re-jet autweticdl!13Nuntief gf Unib in ch Cbs- 1 M =也, Delay |Ctock Cjictes: I C-N = SOwAFIMING! F ysu bwgedhe /dluex the pt 別 il te reset sutoroaicallJlIKCaicelTotel:54) D/cl&

14、&cuked.ID oxccutodi 刖 20 hihutlciid4 IrishuGiQufsi 列ircnt in ipclhcnStat isicSt atxst icrsiTotal:HJ 匚、已赳 aj KecLted.ID wecuted bf 30 nSructionH-4 In 曲 uctiurtf tun 弓i in Rfdirw.ELJ-d.cdk! l gui: a * ion:Mb呼y i:e: 327K DytaifaddX Staqss:忑 requiicc Cvtle*: 4 frnJE Glaqes: 2:&口uiredl Cycles; 4 日后;苛护.二

15、requted Zy&w 4如仙ding ?ia3bdSbalIs:RAW 刖已血 2 |24.00?i d 勺1 匚比HL theiw.LO xalb 2 16. of HAW iidkBronchAJunp rdb: 2 I1E.C7-? cf RAW 就口I日 FlDaling point sUlk: Q |GG67Jtcf RAW dalhl 盘拙臥 J |1CC?1 FnLiEK-cMgpt 1, rqiiirprl EjiidIw 4 fdiyE5竹gy 4. reqiJred Cycler 4 FuWdidriu Miiddjled.Cand i b icnal Bi scnch

16、cs )- ota: 2 p.G7 3f al In型ruclighl H-ereaf: Faker 0(0.33*= of ell “rd Dtndiel rwtlakcn: 2 (1CQ0Cl?( of si caidl Dia-cnofLosdJzEt or h I nst x uct z ons :T血一 7:猿Ol H險応血占L址世出 Lcaca: 2 f2 3 E7 ol L&ad Ctaro- Miyc“n:】 Stores; v |Z1oi Load VS tare InsbixrioruFleeting point stage lastructionsTfltd: 2 ( 6

17、7% of bl lii4tivKliMi4)L Inenoh Addnart::匚 |0 00 of lMcinq port iaoe initl曰 icab匚ns: 2 (00.3Dfe of Floatr 口 pain I: dage inst. DUdciiif 0(0.00 dI ribbing port stegp irut)Traps:taps: 2of 巴11 ImlriLctbStOLlls :RAW 氐II氛 12 (24.03 rf al CdsaJ. there 朮 L_i 虫lb: M |lbbx? ot HAW date Hrarchu匚Limn吾.Td出:2 (G

18、 7 of dllnstiuEtimi thereof;Addriorts: 3 (H 3DX cf Fbalirg pc inlt stage 亦就 | (MulftpliC-atoni 2 I UU. JU - & l-bahng pant slage nst CivitinrE J U JU ol1 Fl&ahrg part slage up stTraos:Tmm 2(G.57feiinf si bi希uctiom比较各个数据,发现没有变化。无论怎么增加浮点运算部件,统计结果都一样。原因在于此程序中浮点计算指令没有重叠, 所以并行度没有增加,性能没有所以,浮点运算部件的增减对效率无影响

19、(3) 考察增加forward 部件对性能的影响为了对比有无forward 部件的性能。需要在勾选 enable forwarding,以及不勾选enable configuration来看性能数据的对比。不使用forward部件:使用forward部件:5tatlst icsTot3Ll .20D tyus(寸 eiccLLlcd.ID exBcirtodby 1 DSInsruc-bcinfalL: llnsfruction(8)curienib1 hPipfllr.Hardwsye terntiguration Mnnwp 亚雲 3Z76? Bines 涪ddM巧 ia软 4, egui

20、red Cueist; 4 fmiuE弋 Mg萇 4, Dcgurcd4Idi/E-SlagjK. 4, nsquBedCices 4 rorw*rdbgdi3iDlclStalls:FAW stalk- b5 32 50N M dl Les| WAW 鶴捷 D 10.00 d al 3cl离 SliuLuial $ldlt;0 Utm uf d iQictoCorti ul Sfllb; 17 16 50% gf dlTrp 站k; 12 G.Qt)毬 of d CyclesTctat 9J- S IdIfs (4 亠.00笔 cf dlCylsijConditional BrADchMJ廿

21、命 严 Ill zRS of I lntrurifliriE-, rihprafi- rakfrr ? : 3扶 E al card Qranchesll r ui idkwii. 13 (3B.67 af dl uurii BiisndheslLoad-S tor c- In a true t d口郭 h - let at 1G 12 29怎 of alHIrtdjru 出 ig 劭 therecif Loads: 7 琴 di Lsadk/K icre-!lnslructDrrtJ ror*i: * 4、I葢 of L-sad /Swe-lrisuiEtmEFloating point s

22、tage instructiofns Tctal 2 22 E6- srf dlllnslfUD ioinsL Uieisot .AdJliarKi. 11 (+5.ES3 cf Ftoiiig puiiil 或agu in Pultplic4itKin! 13 (54.17: of Aactingpoint 此举 ml) Divmone; 0(0.00%dFloating point 我日g hit)Total=ISO Chefs occubdID BwnAnJ bv 1D5 Inurfonfsl2 iniuiLicr(3)cijrierii: v in PipireJELJrT*aps:T

23、rap 4 (3.31 盖 d 占I insiructm?E&rdvrajr csniguT*itionMsfrcrp 越臨 32T&? Bytes a faiCW Stages: 4, requred Cycles 4Fi ultX-5lauei- 4. icuuheu CplIss. 4 fJivEX-Slouti.暫旧剂詔5匚賦A FcipAanlro nahledStalls:RAW ctjik 26 (16 of $1 QyukoL :hoiwf LD ddk 3 111.54 qI RW 曲k SrnchAJinti slk 3 (1154 dI RAW ildlx-1 Ftdif

24、Licoiiil :idl 20 (76 9?0l RSW 冬l.Bfc)WAW lAiir nnfm si 呂 1StrucKral wtmlk: 0 p. 00 of all CjcIbsUonlol dak: 17 (1&7 of衬强nop shli: T |7.5甘 禎 ol CyclTold 55 9丽(34 BU of allude*)Conditional Branches):To也T 15(1i 2耽 M H inthi上rtarwl二 H; of all cond. Brarxtlmol aken 1J H6S.67ol- all condL Brachs$|Lusd-S t

25、 CJ. S-Io a tx UC t iuJkS .Told 13(1? 380( al Inslflxlonit. Iherei Loadt: T (53.85;剖 Load-ZSroiie-lnuctiDns irflpa;匚(从 | 5a of LosIjSi nsluflirTKFira tun 号 paint at Me iRstiuct icns -otet 2上(22.PE屯 ol dl InstiuctbniL thenee Addtbr11 4u.03S df Floalris putt slade hall MulHpIrhjng-13 (5417X ol Fbaihgi

26、pimi $1ob imi.) Iiiviiricrw 0(0 Cd of Fl口sfrg paril HapF hsl Trspe:opj 4 (3 01 d dllri&trucliom)从上面的数据我们可以看出增加forward部件后,总的周期数由200减少 至158,RAW由原来占总时钟周期的32.5%减少至16.46%,RAW个数由原来 的65减少至26。增加forward部件使得控制相关比例增加了。所以,使用forward 部件后,总的时钟周期减少,数据相关减少,流水线 的性能得到一定的改善。(4) 观察转移指令在转移成功和转移不成功时候的流水线 开销。Canditional Sr

27、anGhcs):T old; 15 (14.2B% gf dll ImbuG血ns* (hersof.takenr 2 (13.33 qI mi cqfkI EFamchKnot lakm: 1Jcl1 al ccni Brsnches可知条件分支指令总共有15条,其中有2条转移成功(13.33%),有13 条转移不成功。转移不成功的指令就顺序执行,故不会影响程序的运行,不会导致流水线断 流;而转移成功的指令会导致流水线的断流,要废弃预先读入的指令,重新从转移成功处读入指令,执行效率会下降。经分析可知,两次断流都会导致一个周期 的流水线断流。七. 实验总结1.在流水线中,硬件资源满足不了指令重

28、叠执行的要求,会产生资源冲突或竞争,称为流水线结构相关,而解决流水线相关的途径之一是设置双存储器 (哈 弗结构):一个数据存储,一个指令存储。实际上,本身实现 DLX指令的硬件设 备已经考虑到了这一点,本身已有两个存储器,一个为数据存储器,一个为指令 存储器。故本身就解决了部分结构相关问题。并且 fact.s中的指令并不会导致 其他资源冲突,故无法体现资源相关。 试验中多加入浮点数部件,运行效率等 没有变化。通过观察指令的运行情况,因为不会发生结构相关(硬件资源冲突), 在流水线中的部件线性使用,故加入部件也不会对结果有直接的影响。2.本次实验,主要通过对于三种相关的观察,分析出现相关时的指令

29、,分析浮点运算部件和forward部件对性能的影响,观察转移指令在转移成功和不 成功时的流水线开销,这些实验一步一步,通过WinDLX形象生动的表示,使我 在实践中更加深入的认识了流水线。3. 通过本次实验,我熟悉了指令执行的每个阶段的任务,对时空图的理解也更深了一步,对流水线中的三种相关性问题有了认识,同时通过此实验学习到了解决这些相关问题的方法,从而对课上所学的知识有了更系统的认识。实验三DLX处理器程序设计实验类别综合型实验实验目的学习使用DLX汇编语言编程,进一步分析相关现象三. 实验环境Windows XP操作系统DLX汇编语言环境四. 实验原理掌握向量运算算法和编程方法。五. 实验

30、步骤(1) 熟悉DLX汇编语言。(2) 编写两双精度浮点一维向量的加法运算程序。(3) 对此程序完成上面实验二中1)、2)、3)、4)方面的分析。六. 实验过程(1)代码清单和注释说明.dataVectorLe ngth: .word 16Vectorl: .word 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16Vector2: .word 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16;声明向量长度以及声明向量1、2Printf1: .asciiz Vector =Printf2: .asciiz %f.alig n 2Prin

31、tPrompt: .word Printf1Prin tPar: .word Printf2Result: .space 4 ;存放打印数据的空间申请.textmain: addi r14,rO,PrintPrompttrap 5Iw r20,VectorLe ngthaddi r2,r0,0Loop:Id f10,Vector1(r2)Id f12,Vector2(r2);循环体中读入向量cvti2d f0,f10cvti2d f2,f12addd f4,f2,f0 ;加法运算Finish:;* Finish,write result into stdoutsd Result,f4addi

32、r14,r0,Pri ntPartrap 5 ;系统中断,输出结果addi r2,r2,4subi r20,r20,1bnez r20,Loop;Endtrap 0运行结果Simbldtia-i iurinngT_.: CailKSl 13QO9Vector - 2.000000 .OJOOOO 6.003000 8.000000 lO.OOOCOO 12.000000 14 JOOOOO 16.DC onon 1 r q non on ?q nnoior ?2 ooo ion aoonon onor on ?b Goonon to mnnoo 32 nr OQOQ|(2 )观察程序中出现的数

33、据/控制/结构相关。指出程序中出 现上述现象的指令组合。StatisticsTotal3r 5匚戶吕忖曰怕cvted.ID1 executed by 131 Instruclion(i).ZI nstructionls J cumehMlu in Hcelne.Hcon i i grura t ion -Menwysize 32763 By俳l,azldEX5tace: 1. rejuredCvces: 4 fnruE5J-StagB$:lequred Cicles:芝(dvEH-Cleyei. 临Lfuiiud Cytld. 4 Forwarding enaibe.Stalls;RAW st

34、dlk. B4 (20 32鳥 cf al Cjjicfei),曲饥.LD stalls: UlLI.UOol HAW staid Biahch/Junp ftilc: 6(26.30 ol RAW FlDd ing poirt * tdh 蹈 |75. IJ0 of RAW stalk) VrAW $alb: 0 QQ灰 of all Cyctes)Sfcuciural 揃丁 0 p.OOKof all Cycles)C*rtfol wtallls 15 (4 7誌 cf al Cjcb?)Tlap 址日 k 54 (1 ?. 14 of -all Cydes) Totad /Etcrlnu

35、ctoru) Sioras; 6 (32.65; ol budk/S tore4ns*ucon$|Floating point: st a. je instruct ions :Tot4t 16 (8.84% of al I ndrudiDiist tineotAdditions: 1 b (1Q1UL翼ol PoaUng pomt sUce rd.I MuNpicakianr 0(0 OOJt of RoMng prinl 膩碎 ir st Diviiiiam: U (0 JO髯 d Floothfl point stage- inrt.|Traps-T mp4* 15 |95l3K of

36、1 iMrudian无结构相关,有控制相关15次和数据相关64次H Clcck CvclLe OiatraAtrg需T JialMEM I 而tub 2Qi2ljjKlSr ar ImJibe i J- 11-bl.丄 _aj|jmrEjfIL_l; JiI 口 hilL 叮! TEMI | WELEfeallI II口”数据相关:以当对当前指令的操作数寄存器进行操作(EX)的时候,前几条指令的运算结果还未写回(WB)结果寄存器,由此产生数据相关。 结构相关:由于只做了一次加法,所以没有产生结构相关r j: *IFT沏Cl KfTl CyfflA D1IF II-PIold ilrZ ZXi

37、rZDjZl.EhlIF I ID IT圧:I 制EZ I WIE Ibng iX f-3 LmvlidpOnO!:iIzIFllfactVeEkiZtitZI ;iLvli2dKLriOIFl vlud l:2 112IF | li : | MFM I vJt |I 庐 |花1 MEM | bddd HJQJOI IF I ID I第一条命令在 WB段,第二条命令在intEX段,第四条命令在IF段。而第三条命令指示为aborted。此处发生了控制相关(3)考察增加浮点运算部件对性能的影响。设置浮点运算部件的配置。由于实验手册上面要求Delay=4,所以我们将Delay这一栏改成4,而Coun

38、t可以任意,为了对比,我们第一次浮点运算部 件取全部为2,第二次浮点运算部件取全部为 4。数据对比如下:FLuatiiL Fu ini St age Comf Ltura Count:Adeftion Unite-Multblbatidh LHit 號Divisiqn Uita-:Nunrbci of Unite n Eoch CIks 1 “此Delaj7 Cicek 匚典lest 1 泪就 32,8B bytes f-iddCdeiJ Canbaldalh 15l(4?E%ddlCyd)l Trapstds; 54174cf dlCjcl苗Tuta Sidl 5-) (A2.2z uf a

39、l 匸趴届)Cen 日 i : ional Br):T朮亂1E阳班策诽訓hehrMliflnU lh日旳i;Ibks-i: 15 (9975?i cf dl ccnd BranDhesrtot laksn. I B 25% dl dl und BiandheH 3Tdwaj7E qdil f igura t ion: Memw 較复 32768 Bw laddE-Sfag# 4. ttqJnd 懿 A IrwjEX-Sragfl?: 4 r&qured Cictof: IdrrEX S Rages- 4r requiied Cycles 4 F 3jwaidrg c_ebcd.Stalls-R

40、*W $taik: &4 (20.$ al al Qtdes). frereot LEmlh OpOCidRAW iiallil Branch/, uro sub. IE mtl: of H毎M y:4ltj Ftoaing ort 如Is 4吕(75 QCl冴诽 RAW 卿lte|WAW stdk 3 p OOfe gf 別 Cydcs S-iudlura ildL. 0 (OlCCX; d dl Cvclesj Ctrtri stalls 15 体穆 d ail Cycles) Trap yiillr 5* 0 小盂 cf C|d) Tcrtal 1 站 0ls| (42.221 o1 a

41、l CydesJCoitdit lenal Daranch&s) ratal 1E(B 64d dllntlruclims). ihef-Bot rLen 15 (33 彩 dlccrd Eirinctes) ret taken: 伍竺.a* 台 I 亡cm Brancet)Lna JzEt 口 reIrstr 口z cics1lata: 4上27 U/Z at alllnsnruclorK;, Ihersol:Loads:E7.拥龛 of Load /Sr&lni(TucliOh.j$lorm: 1C 12.55 of Load /Storz Inairuxiions)Floating mt

42、 stage Lrtst-ructionsTdtat I 套低触丄 af all IhfiliUEltonaL ihreol:AddriQHrt: 16(T0U dI Flattingpannl; ttegt inft.)MiJJp|ilioti5; I |Q.QQ% ot Fbaling point 费叩 in秋 JDivitaorK: 0 |O.DD oF Fllocdng gxint tagp inrri.)TracsTrapf 1S 代 94髭 of al nsrucremL&ad-Stcr=1nstructicn-f atal 49(2707XctdllnslhJclbon3jl I

43、hereal: Lcotx. 3J (7. J5玄 cf Lead-祐卜ere I nlrucliom) Sluiei. 1t (C21G5SJ of LoadStcierlrtsi utiurH-)Floating p=i n ti ns t ruct i onsF h占I 1 b l艮尉工 0 目11 rwIrucHortil lhef not Addifonc 1b IliO. JJ% ol Flo-aungpami ttogaintL) M-ukiicoiljors: C (C O嘴 ofrioalinq pcint dogs inntl E i临 cm 在 C |QCK) of Fl

44、oa mg pci nt 加w iml Traps:Tnspw lE |3.別老 M lrctnxtbns|比较各个数据,发现没有变化无论怎么增加浮点运算部件,统计结果都一样。原因在于此程序中浮点计算指令没有重叠, 所以并行度没有增加,性能没有提高所以,浮点运算部件的增减对效率无影响(4 )考察增加forward部件对性能的影响。为了对比有无forward 部件的性能。需要在勾选 enable forwarding,以及不勾选enable configuration来看性能数据的对比。不使用forward部件:使用forward部件:Sialjgt1CTotal2 rwiQCt曲n|i| cu

45、rsMlp mPpir%Total3匚戶岂对ID ere:uted 帥 E l IrKtrusdcnlsLu liiructiDnfBjlcutieiiUf35 Cde-H.=ivaxe cons igurat ict: M首n好曲电32760 faddEX-Stoce-s;rcciurcdCvctei: 4 fnruEX Sbages requred Cycles 匸 fdlv;- CitH工 4. rcobiwd C/ole 4 Fcwjardrg 日样 nb 帶 dStalls:RAW呛鬧|2fl 32 d訓內鈕tlw赳MLD 血胚 UJQ曲廿RAVZtTblE ianch/J-jTiD

46、 stalfe 6 (25.LC 工 ol PA1 tlalhs)FT i g何i i出 册(巴口戏ol FUW诙耐 WAN申印啟Q Q。恥flf刑/比列Shdel jra 2lak: 0(0 1QJ;Conticil stb lb IIS? d alClaijT i 祁朋k 5d (171 必 of dl pyriaa)I olal: 13-J S l*hJ 科2 壬君 qK all Qpde$Conrfitional Brouches)I tftal 15|3 34? of al InsftrucfcinsL itwiwsl; t*的 1 |93 75 v dl al l&liiulrix

47、tbn)Slcrec: 16 -2.cM Load 咼 ioienEiiuctiQfu|Floating roiat stage iJELSriaet ions :Ioiit 16(B81 飞cf allnruciorel. iMwl:Addi&oriE 16 (1 OCl OCfeurf Floalip pcinl 吐dge int MJUpbcatiwc: U .LL; ol K右劄怕 mw 戲击ge n址 Dvisi 帕 |T IT % Di Flotfrfl pci it /可厲 ihtljTxapsT kip 11 f讪* tf dl liulruEtbni inFipMi巾e.Ha

48、rduare confijurat 1onM-smjiy 3ize. 327641 B 呼苫addEX ; lag配.4. tsqvired C/cl*s. 4 lmrulE:-Sitagffi itqured Cides i dvESlaaes; reojiedCyclesL; 4 orwardiig dablcd.StallsRAW 曲Ik; 162闕妙(rfdl CpcleslWAW slab: D (O.OCS of allStructural sraih: U ILUlj盘 df Ml 匚yd岡Ountid aldlk. 15 163 ol allQidedI tap lah: 54

49、 13 00 cf alTotal 2J1 ShlhKof 討 CjcfejCundi I lulloiL Qi. sii_ies .Totd 1 p of al In&lxcionc thaicch: bkm-15 |3175莓 cf 制I and BrnriiR? wt 1 6.2501 all ord. BrarchesLoad-/St ors-1 mst rue t i orisTotal *3 (27.07S of al I诫iu朮Iheieof Loach; 33 6? 35 of LMd-/Stcrc-lns:trudtnn =tore$: 13 (22 EE . of Lo-a

50、d-B-tco-irsInuctiorK IFloatnq point stage irL&uuctiutis;Total 1G (8 84老 cf al InsKcians), tbeieol: Addhoirtsc 1 K |1ULII Jtl- oiL Flaatng point stage re* J MuhdiMtbn 3|C.0C of Ftoacm口 girt laae hit DimioruK D(QOO of Aoating port it&ge hstjTrapsT iq. 13 (9-94畀 of dl nBtucli口圖从上面的数据我们可以看出增加forward部件后,

51、总的周期数由413减少至315,RAW由原来占总时钟周期的 39.22%减少至20.32%,RAW 个数由原来 的162减少至64。增加forward部件使得控制相关比例增加了。所以,使用forward 部件后,总的时钟周期减少,数据相关减少,流水线 的性能得到一定的改善。(5)观察转移指令在转移成功和转移不成功时候的流水线 开销。Ccudit ioiLal BtrancliesJ :Totcl: 16 (81844 of al ln&irLc4on$t thereoftaken: 15 p J. /b.i. of al cord. Brandwslnot taken 1 ib d aland

52、 BianchetJ可知条件分支指令总共有16条,其中有15条转移成功(93.75%),有1条转移不成功。转移不成功的指令就顺序执行,故不会影响程序的运行,不会导致流水线断 流;而转移成功的指令会导致流水线的断流,要废弃预先读入的指令,重新从转移成功处读入指令,执行效率会下降。经分析可知,两次断流都会导致一个周期 的流水线断流。七. 实验总结通过此次实验我对实验二所进行的数据相关、控制相关、结构相关的性 能分析做了更深入的了解,以及对于功能部件对流水线的影响,forwardi ng 技术对流水线的影响,还有就是静态指令调度等。通过自行编写向量矢量算法,在代码中初始化两个向量,按照分量顺序进行运算。当然,如果想要改变源向量,直接处理代码中的相关数据即可总之,该实验主要着重对浮点运算以及对于流水线的相关影响及性能分析,使我受益匪浅实验四代码优化一. 实验类别综合实验二. 实验目的学习简单编译优化方法,观察采用编译优化方法所带来的性能的提高三. 实验环境Windows XP操作系统DLX汇编语言环境四. 实验

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!