位微处理器一级指令Cache中SRAM的设计-集成电路工程专业毕业论文

上传人:dus****log 文档编号:76512330 上传时间:2022-04-18 格式:DOCX 页数:82 大小:175.27KB
收藏 版权申诉 举报 下载
位微处理器一级指令Cache中SRAM的设计-集成电路工程专业毕业论文_第1页
第1页 / 共82页
位微处理器一级指令Cache中SRAM的设计-集成电路工程专业毕业论文_第2页
第2页 / 共82页
位微处理器一级指令Cache中SRAM的设计-集成电路工程专业毕业论文_第3页
第3页 / 共82页
资源描述:

《位微处理器一级指令Cache中SRAM的设计-集成电路工程专业毕业论文》由会员分享,可在线阅读,更多相关《位微处理器一级指令Cache中SRAM的设计-集成电路工程专业毕业论文(82页珍藏版)》请在装配图网上搜索。

1、IIAbstractWith the increasement ofintegrated scale ofprocessor,the capacity ofcache basedon StaticRandom Access Memory(SRAM)technology is rapidly increasing and the proponion ofits inareaSystem 0n Chip(SoC)is increasing year by year,thus the performance of cache haSa significallt1mpact onhe performa

2、nce of Central Processing Unit(ceu)The main appIic撕on of cache is tosmoom the speed difference between processor and off-chip memory,therefore SRAM istypicallvused for the design of caehe in order to obtain higher access speed and the custom design ofhighspeed low-power SRAM is very favorable for th

3、e improvement ofCPU DerIl0兀nanceFirstly,by analyzing read and write operations of SRAM memory cell,this thesis obtains the limits of transistors in storage unit and provides the specific size of the memory cell uSed in the SRAMsIn order to shorten the pulse width of wordline and reduce thepower cons

4、l】mDtion ofbitline during read and write operations,self-time technique is adopted to control出e read and write operations of Data SRAMThen,this thesis introduces a novel latch type sense锄D1ifier whjch call improve the speed of Data SRAM and reduce the power consumption du咖g read operation as well as

5、 a npCMOS dynamic Tag comparator which can efrectively accelerate出e speed of comparison of Tags by separating the upper address and the lower addressThenthe layout design ofLl instruction cache is introduced in this thesis and the overall layout ofSRAMis provided as wellFinally,a simulation of read

6、and write operations is conducted toverify thefuncdonal correctness and timing compliance of the SRAMsThe capacity of Data SRAM,Tag SRAM and Status SRAM designed in mis theslsarerespectively 32KB,3KB and 128BAt 10V supply voltage,the simulation resuIts based on TSMC 65mn process show that the maximu

7、m read or write delay of Tag SRAM,Status SRAM and Data SRAM is 0479ns meeting the design requirements of 05nsIn addition,the operating疗equencyof SRAM is up tO 133GHz which provides 30improvement compared with the designrequirements of IGHzSimulation results in 1GHz clock frequency show t11at山e Dower

8、 consumption of Data SRAM is 1467mW and the overall power consumption of Tag SRAM and Status SRAM is 4864roW,both meeting the design requirementsKeywords:Processor,Cache,SRAM,Self-time Technique,Sense Amplifier,Tag comparatorTTTIV目录目录摘要IAbstract III 目录 V 图表目录VII第1章绪论l11课题背景与意义l12国内外研究现状2121国外研究现状212

9、2国内研究现状313研究内容与设计指标4131研究内容4132设计指标。514论文组织6第2章cache及SRAM设计概述721 cache基本知识7211存储器的层次结构7212 cache存储器的原理8213 cache的替换策略1022 SRAM概述,1l221 SRAM的基本结构11222 SRAM的存储单元12223 SRAM的工作原理1523本章小结16第3章Ll指令cache中SRAM的电路设计1731 SRAM存储单元的设计1732 SRAM布局及存储阵列的设计一2l321 Tag SP,AM布局及存储阵列的设计21322 Status SRAM布局及存储阵列的设计22323

10、Data SRAM布局及存储阵列的设计2333译码电路的设计24331 Data SRAM译码电路的设计25332 TagStatus SRAM译码电路的设计一2734位线预充电路的设计一28341预充机制28342预充电路的设计2935 Tag比较器的设计29351比较器设计技术29352比较器电路的设计3136灵敏放大器的设计35361电路分析与设计35362模拟结果38V万方数据东南大学工程硕士学位论文37自定时电路的设计一4038输出判断逻辑电路的设计一4539本章小结一46第4章Ll指令cache中SRAM版图的设计4741版图设计流程一4742 SRAM版图布局布线策略4743 S

11、RAM结构化版图设计49431存储单元的版图设计49432译码电路的版图设计49433 Tag比较器的版图设计52434灵敏放大器的版图设计53435输出判断逻辑电路的版图设计54436 SRAM整体版图效果5544本章小结。56第5章验证及结果分析5751 SRAM功能仿真。57511 Tag SRAM的电路仿真575I2 Tag SRAM和Status SRAM的整体电路仿真58513 Data SRAM的电路仿真5952 SRAM时序仿真60521 Tag SRAM的版图仿真61522 Tag SRAM和Status SRAM的版图仿真62523 Data SRAM的版图仿真6253 S

12、RAM功耗测试及拉偏仿真。63531 SRAM功耗测试63532 SRAM拉偏仿真6454本章小结66第6章总结与展望6761总结6762展望67参考文献69致谢73攻读硕士学位期间发表的论文75VI图表目录图表目录图11处理器和存储器速度发展不平衡1图12片上存储器在SOC中所占芯片面积的比重2图13 Ll指令cache的组织形式5图21存储器层次结构一8图22 cache原理图。8图23 cache的三种映射方式9图24 SRAM的基本结构12图25 4T2R存储单元13图26 6T CMOS存储单元13图27 8T存储单元14图28 8T与6T存储单元的面积比较14图29 SRAM写操作

13、时序图15图210 SRAM读操作时序图16图31六管SRAM单元电路图1 7图32读操作期间六管存储单元的简化模型(Q=1)18图33 Status SRAM中的九管存储单元20图34 Tag SRAM存储阵列结构21图35 TagStatusPLRU SRAM的整体布局23图36 Data SRAM子阵列组织形式。24图37 DataSRAM宏模块24图38 Data SRAM的一级译码电路26图39两输入与门电路结构26图310 Data SRAM的三级译码电路27图311 TagStatus SRAM的38译码器电路28图312位线预充电路29图313互补CMOS同或门31-图314互

14、补CMOS同或门晶体管级结构31图315采用互补CMOS逻辑实现的一路cache比较电路32图316传统的动态比较电路32图317本文提出的npCMOS动态比较电路33图318两种动态比较电路的最长延时对比35图319基本锁存型灵敏放大器36图320改进的锁存型灵敏放大器36图321本文提出的新颖锁存型灵敏放大器37图322灵敏放大器仿真波形39图323灵敏放大器的电流比较40图324自定时技术电路结构41图325传统的的虚设单元电路结构42图326本文使用的虚设单元电路结构42图327 dummy cell放电速度对比43图328 dummy column的层次结构44VII万方数据东南大学

15、工程硕士学位论文图329自定时过程45图330输出判断逻辑电路46图41六管存储单元的版图49图42两个三输入与门的版图50图43 Data SRAM二级译码电路版图50图44 Data SRAM三级译码电路单元版图51 图45四输入与门版图 51图46二级译码电路宏单元版图52图47 12位Tag比较电路版图52图48一路比较器电路版图53图49灵敏放大器电路版图53图410灵敏放大器宏单元电路版图54图41l输出判断逻辑电路版图54图412 Data SRAM子阵列版图55图413 Data SRAM宏模块版图55图414 Tag SRAM和Status SRAM版图56图51Tag SR

16、AM电路仿真波形一58图52Tag SRAM和Status SRAM电路仿真波形59图53 Data SRAM电路仿真波形60图54 Tag SRAM版图仿真波形一61图55 Tag SRAM和Status SRAM版图仿真波形62图56Data SRAM版图仿真波形63图57best条件下Data SRAM的仿真波形64图58best条件下Tag&Status SRAM的仿真波形64图59worst条件下Data SRAM的仿真波形65图510 worst条件下Tag&Status SRAM的仿真波形65表11 L1指令cache中SRAM的设计指标6表31六管存储单元的晶体管尺寸20表32

17、三个灵敏放大器的速度和功耗比较40表51 SRAM功耗性能分析(电路仿真)63表52 SRAM功耗性能分析(版图仿真)63表53 SRAM后仿结果与设计指标对比66vIII万方数据第l章绪论第1章绪论11课题背景与意义从1958年Texas InsmamentS的JackKilby提出集成电路(IntegratedCircuitIC)的构想 以来,一个单片上集成的晶体管数目便如摩尔定律(MooreLaw)所预言的那样随时间按指 数规律增长,集成电路的集成密度和性能也随之不断提高。2014年,“棱镜门”事件的爆发 使高通和英特尔这样的芯片公司对政府、学校、医院、民航、交通等多方面系统的渗透得到

18、各国政府的关注,国家信息安全战略也随之上升到了一个前所未有的新高度,集成电路国产 化率的提升迫在眉睫。集成电路产业将会是未来五到十年国家重点扶持的产业,其中高性能 微处理器的研发更是被作为增强科技实力的发展重点。自1971年Intel推出世界上第一款微处理器4004以来,CPU的集成密度和速度性能便 不断地提升,现在更是向着多核、并行化的嵌入式处理器方向发展。目前单个CPU芯片上 可以集成多达十亿个晶体管,但主流CPU的工作频率依然较低,这是因为存储器与处理器 技术发展的不平衡严重制约了处理器性能的提高,这就是“存储墙”效应,如图I1【1】所示。 因此,改善存储系统的设计对于提高系统的整体性能

19、具有重要意义,而增大片上存储器的容 量是打破存储器性能瓶颈最直接有效的方法。耀 趋 莨 翼1980199020002010年份图11 处理器和存储器速度发展不平衡随着CPU集成密度的增加以及CPU规模的不断增大,集成在处理器芯片内的存储器的 容量也随之快速增加。从图12可以看出,片上存储器在SoC中的面积比重逐年增大,由 1999年的201-升到2014年的90【2】,预期这一比例还会进一步增长。在处理器中,片上1万方数据东南大学工程硕士学位论文存储器主要由高速缓存组成,因此cache的性能将对SoC芯片的性能产生重要影响,其作用 也不言而喻。高速缓存的性能主要由其内部SRAM的性能决定,所以

20、定制关键路径上的高 速低功耗SRAM对于改善SoC芯片的性能是十分有利的。鉴于SRAM在低功耗和快速数据 存取方面的优点,现其己广泛应用于便携式 、交换以太网、电视传输、数字卫星系统等 高新技术方面。目前,高速低功耗SRAM的研究已经成为数字集成电路领域中的研究热点之-3。_新逻辑的面积。r重列逻辑的面积存储器的面积_-20022005200820图12片上存储器在SoC中所占芯片面积的比重12国内外研究现状在处理器中,存储器的主要作用是存储数据和程序,是处理器必不可少的组成部分。随 着处理器技术的快速发展,存储器技术的发展速度与处理器的发展需求之间的差距越来越 大,而且这种差距随着处理器性能

21、的提高还在进一步拉大。目前世界上许多半导体厂商一方 面在对已经成熟的存储器进行改进,如增大存储器的容量、降低电源电压及读写功耗等【4】; 另一方面则根据实际需要在已经成熟的存储器基础上开发各类特定用途的存储器。12-1国外研究现状半导体存储器技术的发展始于20世纪60年代末期,1965年仙童半导体公司的施密特 利用MOS技术设计出了随机存取存储器(Random Access Memory,RAM)。1969年,Intel 公司使用多晶硅P型沟道工艺设计出一款256bit的静态随机存储器【5】,这是其推出的第一个 商业性产品。至此,半导体存储器作为集成电路产业不可分割的一部分进入人们的视野,2万

22、方数据第1章1绪论SRAM存储器也以其独特的优势成为人们研究的重点之一。 2001年,斯坦福大学在多级译码电路中考虑了长线延迟的影响,提出了较为优化的译码电路结构并将其应用到高速低功耗SRAM的译码电路中5】。此后,其他一些研究机构进 一步改进了逻辑努力(109icaleffort)的延迟模型【6】,在考虑长线延迟的基础上,增加了导线 寄生、晶体管二阶效应等的影响,从而可以更加精确的模拟深亚微米下电路的延时情况,进 一步提高了SRAM设计的精度和性能。2006年Intel公司采用双电源电压技术设计出一款应 用于L3 cache的256Kb SRAM,它的存储单元阵列及字线驱动电路采用恒定的12

23、V电压, 而SRAM的外围电路(peripheral circuits)则采用动态电压调节技术进行适时调节,此款 SRAM的工作频率可以在85。C条件下达到4GHz71。2014年,微电子研究中一L,(hateruniversityMicroelectronics Centre,IMEC)首次提出完善的器件阈值电压预测方法【81,并在10nm工艺 下,将其应用于鳍式场效应晶体管(Fin Field-EffectTransistor,FinFET)构成的SRAM中。2014 年TSMC提出一种适用于低压操作的SRAM配置策略,该策略允许一个SRAM编译器既支持伪双端口SRAM(P2PSRAM)又

24、支持单端口SRAM(SPsRAM),不同于传统的伪双端 口SRAM,这种配置策略可以动态选择读优先或者写优先91,TSMC在16nm FinFET CMOS 工艺下采用63SRAM单元搭建测试芯片并完成该配置策略的验证工作。制造工艺的发展为SRAM性能的提升提供了另一个研究方向。2008年M采用45nm PDSOI工艺设计了一款应用于LI cache的12Mb6TSRAM,在10V电源电压下,该S删的工作频率可以达到65GH2J0l。2010年Intel公司提出一种动态自适应字线下拉技术,并 在32nm铪基HighK(高K)栅电介质+Metal Gate(金属栅)电极叠层工艺下将其应用在S蝴中

25、。2013年,TSMC采用20nm高K金属栅SoC工艺设计出一款112Mb大小的SRAM,相比于传统工艺,其漏电电流显著减小,仿真显示其工作电压的改善幅度超过200mV, 同时晶体管的密度提升了近2倍1l】。122国内研究现状与国外相比,我国的集成电路产业起步较晚,且技术相对落后。不过近几年随着半导体 制造工艺的整体进步及国内国际环境的变化,我国的SRAM技术也在政府的大力扶持下取 得了长足的发展。2013年上海交通大学在TSMC40nm工艺下设计了一款低压低功耗SRAM, 其最低工作电压可以降到06V12】。2012年浙江大学提出了一种新型的单端读不对称8T SRAM存储单元,与6T单元相比

26、,其功耗和稳定性有一定程度的改善【13I。2013年,东南大 学基于IBM 130rim工艺设计了一款256x32 bit大小的SRAM,该SRAM可以在200mV极1万方数据东南大学工程硕士学位论文 低电源电压下正常工作,且功耗仅为013州14】a 13研究内容与设计指标本课题来源于一款32位集成双核微处理器,处理器采用TSMC 65rim CMOS工艺进行 设计。由于该微处理器对嵌入式SRAM的性能要求较高,而通过存储器编译器(Memory Compiler)自动生成的SRAM无论是在速度还是在功耗方面往往不能满足设计要求,因此该处理器的存储部件采用全定制设计方式实现。131研究内容本文的

27、主要目的是设计应用于32位集成双核微处理器Ll指令cache中的SRAM。L1 指令cache包含三类SRAM,一类是存放指令数据的Data SRAM,一类是存放地址标签的 Tag SRAM还有一类用于存放cache状态位的Status SRAM。本文采用全定制方法对三类 SRAM进行电路和版图的设计,并对某些关键电路进行优化。论文的主要工作可以概括为以 下四个方面:(1)通过研究SRAM的总体结构,并根据cache中SRAM的性能要求完成DataSRAM、 Tag SRAM和Status SRAM存储阵列(memory array)及外围电路的设计,并创造性的对Tag SRAM和Status

28、 SRAM进行整体布局以实现部分外围电路的共用。(2)为了消除版图设计中金属连线延迟对字线选通脉冲的影响,在Data SRAM中采 用自定时技术来完成对存储单元的读写操作。自定时技术的基本原理就是通过内部电路产生 反馈信号来自动截断译码电路,进而关断字线信号。因而可以缩短字线脉冲的宽度,减少 SRAM位线的读写功耗,同时消除了金属连线延迟对字线脉冲的影响。(3)本课题对SRAM的速度要求较高,最高工作频率在1GHz以上。而Ll指令cache 中DataSRAM的容量最大,因此在DataSEAM的读出路径上使用了灵敏放大器以保证其能 满足处理器的速度要求。本论文提出了一种新颖的锁存型灵敏放大器,

29、具有较快的放大速度和较低的读出功耗,且该灵敏放大器对位线电容不敏感。(4)比较器延时是Tag SRAM关键路径延时的重要组成部分,为了加快Tag标签与主 存地址的比较速度,本文将高位地址和低位地址分别进行动态比较,并采用np-CMOS逻辑实现动态比较电路的串联,根据程序的局部性原理,在cache访问的多数情况下,Tag标签 的高位地址是相等的,不同的只是地址的低位,因此多数时候高位比较器的输出信号线不需4万方数据第l章绪论要放电,这可以有效的加快Tag比较的速度。132设计指标本课题所设计的处理器的每个内核都集成了一个哈弗(Harvard)结构的LI cache,即指 令cache和数据cac

30、he分离。指令cache采用八路组相联映射(set-associative)方式,每个 cache行(1ine)【】5】包含8条指令数据,l位状态标志位(有效位)和24位地址标签。其中 指令数据存放于Data SRAM中,状态标志位存放于Status SRAM中,地址标签存放于TagSRAM中。整个指令cache分为128组(set),其组织形式如图13所示。Line0 Linel Line2 Line 3Line4 Line5Line6 Line 7卜一8 bistmctionsBlock叫图13 L1指令cache的组织形式LI cache作为处理器中最靠近寄存器的高速缓存,它的访存速度要

31、求足够快,这样才能 发挥处理器快速处理数据的能力。本课题要求L1 cache的最高工作频率高于1GHz,即存取 周期小于Ins。在SRAM中启动一次读写操作到完成该操作所用的时间叫做存取时间,本论 文中Data SRAM、Tag SRAM和Status SRAM的存取时间需小于05ns。由于指令cache和 数据cache的总功耗占整个处理器功耗的相当大一部分,而cache中绝大部分功耗来源于其 中的SRAM,因此对cache中的SRAM进行低功耗设计是有必要的。在65nm工艺下,本文 要求所设计的Data SRAM在10V1GHz下的读写功耗低于20mW,Tag SRAM和Status SR

32、AM的整体读写功耗低于50mw。存储容量也是SRAM设计的重要指标之一,在本课题 中Data SRAM用于存放8条指令数据,所需容量为32KB;Tag SRAM存放24位地址标签,其容量为3KB;而StatusSRAM只需存放l位状态标志位,所以它的容量最d、,只有128B。S万方数据东南大学工程硕士学位论文Ll指令cache的详细设计指标如表11所示。表11 L1指令cache中SRAM的设计指标参数数值特征尺寸65rim工作电压105V土50lnV工作温度550C-+1250C存储容量32KB(Dam)、3KB(Tag)、128B(Status)读出延迟时间505ns读写功耗520roW(

33、Dam),550roW(Tag&Sums) 最高工作频率21GHz14论文组织本论文共分为六章。章节内容安排如下: 第一章为绪论,介绍了课题研究的背景意义及国内外对SRAM研究的现状,随后讨论了本论文所做的研究工作并给出相应的设计指标。 第二章介绍了SRAM的基本结构和工作原理,并给出基本的读写操作时序。 第三章详细介绍了Ll指令cache中SRAM各功能模块的工作原理并通过对比不同电路结构的优缺点,最终选出一种较为合理的实现形式。本章重点介绍了Tag比较器、灵敏放大 器和自定时电路三个高速模块,提出新颖的结构并给出仿真结果。第四章介绍了L1指令cache中SRAM版图的结构化设计方法,逐一展

34、示了各个关键模 块的版图并给出设计过程。最后按照SRAM的整体布局将各功能模块进行拼接完成整个版 图的设计。第五章对SRAM进行了全局模拟仿真以验证SRAM读写操作的功能正确性和时序符合 性。第六章总结了本文的研究成果,并展望SRAM的后续研究工作。6万方数据第2章cache及SRAM设计概述第2章cache及SRAM设计概述21 cache基本知识CPU在对存储器进行访问时,无论其读写的内容是指令还是数据,它所访问的存储单 元在多数情况下都会集中在一个较小的连续区域中,这便是人们熟知的程序局部性原理。在 微处理器中,利用指令和数据的空间局部性(Spatial Locality)以及时间局部性

35、(Temporal Locality)原理引入片上指令cache和数据cache,可以显著地减少处理器与片外存储器交换的频率,从而大幅度地降低处理器访问片外存储器的功耗和时间。随着处理器技术的发展, 处理器的性能也在不断提高,而片上高速缓存的存储容量也随之变得越来越大,因此高速低 功耗的cache对于提高处理器的速度、降低处理器的功耗具有决定性的意义。211存储器的层次结构计算机存储器根据存储位置(10cation)分为内存储器和外存储器。内存储器根据功能的 不同划分为寄存器、高速缓存、主存储器等。外存储器由磁带、磁盘等外围存储设备组成, 通过IO控制器与处理器进行连接。存储器的设计需要重点考

36、虑容量、速度和价格三个关键 要素,并且大多数时候需要进行折中处理。存储器的容量、速度和价格存在如下关系【15】:存取速度越快,每位的价格就越高。存储器的容量越大,存取速度就越慢。存储器的容量越大,每位的价格就越低。 显然,为了使存储器满足处理器的性能要求,设计者必须使用价格昂贵、容量小但存取速度快的存储器。为了解决这一矛盾,存储器层次结构(memoryhierarchy)应运而生。存储 器被组织成一个如下所述的层次体系:离处理器较近的存储层次是较远的那些层次的子集, 整个层次结构的最底层存放着可能被访问到的所有数据。离处理器越远级别的存储器的访问时间越长,而高层的存储器(离处理器较近)容量小一

37、些,速度也快一点,自然价格就会更 昂贵【1 6,存储器层次结构的合理性在于CPU的程序结构具有局部性。由于大多数程序包含 循环,因此这部分程序会被反复调用和执行,呈现出时间局部性【16】。同时指令的执行通常是 按顺序进行的,因而又呈现出高度的空间局部性【16。基于时间局部性原理,可以将最近访问 过的指令或者数据保存在存储器层次结构中更靠近微处理器的层次上,同时基于空间局部性7万方数据东南大学工程硕士学位论文原理,在将数据从存储器层次结构的低层次转移到高层次时,可以连同其邻近的多个数据一 并转移,这样就能兼顾存储器的容量、速度和成本。图21给出了一种典型的层次结构,片 上寄存器堆和片上cache

38、是最接近处理器核心的,因而它们的容量最小、速度最快,但是每 位的价格也是最高的。随着层次的下降,存储器的容量逐渐增大,每位的价格逐级降低,存 储器的存取时间也在变长,但处理器对存储器的访问频度随层次的下降而降低,整个层次结 构呈现出一种近乎理想的状态,即它的容量与存储器层次结构中最底层(容量最大)存储器 相同,而访问速度与最高层(速度最快)存储器相当【16】。容量更小、速片度更快,但成惹一设备土m,本更高的存储片9IL2 cache(SRAM)主存(DRAM)容量更大、速 度更慢,但成 本更低的存储本地二级存储(本地磁盘)设备离线存储器(磁带、光盘等)图21存储器层次结构 212 cache存

39、储器的原理为了平滑CPU和主存储器之间的速度差异,现代计算机都会在CPU和主存储器之间放 置一个速度快、容量小的缓冲存储器cache,如图22所示。当CPU试图访问主存中的某个 字时,首先会在cache中查找,如果这个字在cache中,则调用之。否则会将主存中包含此 字的固定大小的块(block)17】读入到cache中,然后再将该字传送给CPU。图22 cache原理图由于主存储器的容量远大于cache的容量,因此当把一个块从主存调入cache行时,主8万方数据第2章cache及SRAM设计概述存块可以有多种不同的放置方法,即主存和cache之间存在不同的映射方式。高速缓存的映 射方式主要可

40、以分为三类:直接映射(directmapped)、全相联映射(如llyassociative)和组相联映射(set associative)【】。主存主存(a)直接映射(b)全相联映射cache第pl组(c)组相联映射图23 cache的三种映射方式直接映射是指主存中的每个块只能放到cache中的唯一行中,作为一个例子,图23(a)9万方数据东南大学工程硕士学位论文画出了cache为8行,主存大小为16块的情况。直接映射的地址映射方式十分简单,CPU 对cache进行访问时,只需检查物理地址与对应cache行的标签位是否相等即可,因而可以 得到较快的访问速度。直接映射的主要缺点是对于主存中的每

41、个块,它所对应的cache中的 位置是固定的。如果两个需要映射到同一cache行但来自主存中不同块的字被一个程序重复 访问时,这两个块将会反复被调用到cache中,cache的命中率(hitrate)会急剧下降。全相联映射克服了直接映射的缺点,它允许主存中的每个块可以放到cache的任意行中, 如图23(b1所示。对于全相联映射,CPU在访问cache时,需要检查所有cache行的标签位, 电路实现比较复杂且访问速度慢,因而应用较少。组相联映射是一种折中的方法,克服了直接映射和全相联映射的缺点,同时又体现了两 者的优点,其组织形式如图23(c)所示。在组相联映射中,整个cache被分为v组,每

42、一组 包含k行,这被称为k路组相联映射。采用组相联映射,主存中的每个块被映射到特定组的 所有cache行中,因此组相联映射cache在物理上可以看做是使用了v个全相联映射的cache。组相联的路数k越多,其相联度(associativity)就越高,cache空间便越能被有效的利 用,因而由于块间冲突而导致的cache失效率(miss rate)就会越低。但由于cache的电路复 杂度会随相联度的增加而增大,同时cache的访问时间也会随之增长,因此应综合考虑微处 理器对cache失效率以及访问时间的要求来选取组相联映射的相联度。本课题LI cache的组 织形式选为八路组相联映射。213 c

43、ache的替换策略 当新的数据块装入cache而cache行被占用时,旧的数据块需要被替换掉。对于直接映射,所有的块都有唯一对应的位置,没有选择的可能。而对于全相联映射和组相联映射,则 需要一种替换算法来决定替换掉哪一块。常用的替换算法主要有下面四种:11随机替换法 这种算法不考虑使用情况,它是在候选行中随机的选择,然后进行替换。这种方法的优点是原理简单,硬件实现难度小。缺点是没有考虑到程序的局部性,因而失效率会比较高。 2)先进先出法(FirstInFirstOut,FIFO) 这种方法是将最早调入cache行中的块替换出去。FIFO采用时间片轮转法【18】或环形缓冲技术【19艮容易实现。与

44、随机替换算法类似,FIFO同样没有考虑程序的局部性,因为最早 调入cache行中的块有可能是最近常用到的块。10万方数据第2章cache及gRAM设计概述3)最近最少使用法(Least Recently Used,LRU)【17】这种算法是替换掉cache行中那些长时间未被访问过的块。LRU算法的合理性在于:最 近刚被访问过的块极有可能被再次访问,因此最长时间未被访问的块是最应该被替换掉的。 LRU算法能够很好的体现程序的局部性,因而cache的失效率较低,但其电路结构比较复 杂,难以用硬件实现。4)伪最近最少使用算法(Pseudo Least Recently Used,PLRU)20-22

45、PLRU算法作为LRU算法的一个变种,通过设置状态位来表示cache行的使用状态, 因而不需要精确地记录cache的使用次数。k路组相联cache只需要每组(k-I)个状态位, 与LRU算法相比,硬件开销要小很多,但命中率与LRU差不多23-241。在综合比较四种替换算法之后,本课题采用硬件开销小、失效率低的PLRU替换策略。 因此八路组相联cache,可以用每组7位状态位来记录cache行的使用情况,这样Ll指令 cache就需要一个容量为128x7的SRAM存储阵列来存放每组的7个状态位。22 SRAM概述按存储单元工作原理的不同,随机存取存储器RAM可以分为静态存储器和动态存储器 (DR

46、AM)。DRAM是根据电容上有无电荷来区分电平“l”和 0的,需要周期性的刷新以补 偿因漏电引起的电荷损失。SRAM是通过双稳态电路来存储数据的【25】,不需要动态刷新就能保证数据不丢失,因而其读写速度很快,但SRAM的存储单元结构复杂,需要多个晶体管来存储数据“1”和 0,通常SRAM主要用在片上cache等对速度要求比较高的地方。221 SRAM的基本结构SRAM的基本结构包括存储阵列和外围电路,如图24所示。存储阵列由存储单元按行 和列堆叠而成,阵列中的水平线可以用来选中一行存储单元,称为字线(wordline),而图中 可以对-N存储单元进行输入输出的导线称为位线(bit line)。

47、外围电路主要包括译码电路、 灵敏放大器、时序控制电路以及数据输入输出电路等部分。译码电路包括行译码电路和列 译码电路,它们共同作用从阵列中选出特定的存储单元进行读写操作。数据输入输出电路 用于将外部数据写入存储单元中或将存储单元中的数据读出到数据总线上,在数据读出过程 中,如果位线过长,则位线上的寄生电容比较大,这就会严重增加位线的放电时间,进而影 响数据的读出速度。灵敏放大器可以捕获一对:E=;l,位线上较小的电压差并将其快速放大到逻11万方数据东南大学工程硕士学位论文辑电平,因而可以加快数据的读出过程。控制逻辑电路通过相应的控制信号完成对SRAM 各模块的调度,从而保证SRAM的读写功能能

48、够正确实现。图24 SRAM的基本结构 222 SRAM的存储单元在SRAM电路中,芯片的绝大部分面积用来放置由存储单元构成的存储阵列,存储阵 列设计的好坏决定了整个SRAM电路的读写性能和面积开销,因此在不影响正常的读写功 能的前提下,需要对存储单元的结构进行仔细的设计,尽量减小其尺寸。SRAM存储单元的 结构有多种形式,下面简要介绍几种典型的结构。a14T2R存储单元4T2R存储单元的电路结构如图25所示,这里“T”指的是晶体管(Transistor), R指的 是电阻(Resistor)。这种存储单元采用非互补式的CMOS电路结构,其主体部分由两个反相 器(一个NMOS管和一个电阻)以正

49、反馈形式对接而成。这种存储单元中的2个电阻不仅可以在衬底上纵向生成,甚至也可以在4个MOS管上方生成【26】,因此整个存储单元只占用 4个MOS管的面积,与6T CMOS存储单元相比,4T2R存储单元在存取速度没有明显下降 的情况下,可以获得较大的存储密度。但它有一个很大的缺点就是存在静态电流,正常工作 时,图25中A点和B点的电位是相反的,晶体管MI和M2必有一个是导通的,则电源和 地之间一定存在静态回路,因而会产生较大的静态功耗。另外,4T2R存储单元的稳定性较 差,在受到外部干扰导致节点高电平电荷丢失时,由于高值电阻的存在,电源来不及补充电12万方数据第2章cache及SRAM设计概述荷

50、,这会使得节点高电平不能保持,数据发生丢失。WL工 工BUBL图25 4T2R存储单元b)6TCMOS存储单元经典的6TSRAM存储单元如图26所示,它由一对交叉耦合的反相器(M1、M2和M3、 M4)以及两个NMOS传输管(M5和朋6)组成。相比于上述4T2R存储单元,6T存储单元 采用全互补式的结构,使用PMOS取代4T2R存储单元中的电阻,正常工作时电源和地之间 不存在直流通路,因而没有静态电流,同时节点高电平是通过PMOS管获得的,这可以消 除阈值损失且具有较强的抵抗噪声干扰的能力。6T存储单元因其速度快、稳定性高的优势 而在现代SRAM设计中获得最为广泛的应用,本课题Ll指令cach

51、e中SRAM的设计采用 的便是这种6T CMOS存储单元。WLT一扫卜 舟f=l1b-已乩洲刊卜i图26 6TCMOS存储单元 C18T存储单元在对存储单元进行设计时,为了保证读写操作的稳定性,需要仔细确定每个晶体管的尺 寸以便留出足够的静态噪声容限(StaticNoiseMargin,SNM),SNM是指在保证存储单元存 储的数据不发生错误翻转的条件下,存储节点上所能承受的最大噪声电压【27】。对于传统的 6T存储单元,读写操作是在同一端151进行的,读噪声容限和写噪声容限存在相互制约关系, 导致晶体管尺寸无法等比例缩小,随着工艺尺寸的下降,这不利于存储阵列的性能提高和功1 3万方数据东南大

52、学工程硕士学位论文耗降低。T1L耐占一目piIIb卜JIKL1 4WBLMI I卜_I M3WBLN上 工H。一上冒RWL图27 8T存储单兀一些研究机构提出了8T存储单元【28-30,如图27所示,与6T单元相比,增加了两个晶 体管M7和M8,同时增加了读字线RWL和读位线RBL。这样存储单元的读操作和写操作 就被分离开来,读噪声容限和写噪声容限也不再相互影响,8T存储单元的驱动管尺寸便可 以按比例缩小。有研究表明,当供电电压为10v时,8T存储单元的面积在45nm工艺下减 dN与6T存储单元相同,而当工艺尺寸下降到32nm时,8T存储单元的面积已经远小于6T 存储单元【31】,如图28所示

53、。F暑j娶 旧 l黑册握忙工艺水平图28 8T与6T存储单元的面积比较可以预见的是8T存储单元会随工艺尺寸的下降而获得越来越广泛的应用,但现在占据 主流市场的仍然是6T的SRAM,且6T存储单元的技术比较全面、成熟,对于习惯了使用 读写统一的6T存储单元进行SRAM设计的工作者来说,要接受读写分离的8T存储单元尚 需一定时日。4万方数据第2章cache及SRAM设计概述 223 SRAM的工作原理作为存储器,SRAM可以将外部数据存入存储单元中,并且能够在不掉电的情况下保持 数据不丢失,同时又能够在需要时及时将数据读出到数据总线上。下面分别介绍SRAM的 三种基本操作:数据写入、数据保持和数据

54、读出。数据写入操作即将外部数据写入存储单元中,图29给出了SRAM写操作的时序图。 首先,在写时钟信号CLK上升沿到来之前,地址信号Addr、写使能信号WEN以及外部数 据Din已经在SRAM端口建立起来,并且地址信号完成预译码。当时钟信号CLK上升沿到 来后,CLK信号使能译码电路完成最终译码并选中字线WL,同时控制数据输入电路将Din 变成差分数据d和dIl,此差分数据随即传递到位线BL和BLN上。最后,位线上的数据写 入打开的存储单元node中,写操作结束,图中的TwR表示的是数据的写入时间。c-厂_-_WL!八w叫九DiJld&dnBLBLNk!T“node图29 SRAM写操作时序图

55、数据保持操作是SRAM最简单、最基本的操作。在数据保持阶段,字线是关断的,因 而外围电路的状态对存储单元中的数据没有影响,但SRAM中的各类噪声会使存储节点的 电压产生波动,从而有可能造成保持失效。为了实现SRAM的数据保持功能,需要仔细设 计存储单元中晶体管的尺寸,以提高其抵抗噪声的能力。数据读出操作就是通过数据输出电路将存储单元中的数据读出到数据总线上,图210 所示的是一次数据读出的时序图。首先地址信号Addr完成预译码,读使能信号REN到达1 5万方数据东南大学工程硕士学位论文SRAM端口,同时位线BL和BLN被预充电至高电平。当时钟信号CLK的上升沿到来后, CLK信号使能译码电路完

56、成最终译码并选中字线WL,随后互补位线通过开启的存储单元 放电,BL和BLN上出现电压差。最后,灵敏放大器的使能信号SE有效,位线上的电压差 被灵敏放大器迅速放大到逻辑电平并通过输出电路读出到Q端,图中的TRD表示的是数据 的读出时间。c、八厂、wLwL!八;刚爪BL&BLN: Qr-RD:-图210 SRAM读操作时序图23本章小结本章首先提出了存储器层次结构的概念,对高速缓存的工作原理及其替换策略做了比较 全面的介绍,并给出了本课题研究的Ll指令cache所采用的组织形式和替换策略。随后介 绍了SRAM的基本结构,通过分析不同结构存储单元的优缺点得出SRAM存储单元的设计 要点。最后介绍了

57、SRAM的工作原理并给出基本的读写操作时序。16万方数据第3章Ll指令cache中SRAM的电路设计第3章L1指令cache中SRAM的电路设计本文设计的Ll指令cache为八路组相联结构,每一路都有Data、Tag、Status三类SRAM, 且要求能够分别对它们进行访问。在这三类SRAM中,Data SRAM存储8条指令数据,Tag SRAM存储24位地址标签,而Status SRAM存储1位标志位。八路cache均被分为128组, 如图l-3所示,每一路Data SRAM的容量为4KB,存储阵列结构为128行x256列;Tag SRAM的存储阵列为128行x24列;Status SRAM的存储阵列为128行x1列。Data SRAM 和Tag SRAM的存储单元使用速度快、稳定性高的六管结构。由于Slams SRAM需要通过 reset信号进行全局清零,因此要增加一个清零管;此外状态位的读写分别位于时钟周期的上 下半个周期,且Status SRAM的读操作和Tag SRAM的读写操作同步,均于时钟的上半周 期进行,因此控制状态位进行读操作的译码电路在时钟信号的下半周期不工作,所以StatusSRAM的存储单元需要设计成双端口形式,以

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!