流水线与并行处理技术

上传人:仙*** 文档编号:194879893 上传时间:2023-03-14 格式:DOCX 页数:9 大小:40.98KB
收藏 版权申诉 举报 下载
流水线与并行处理技术_第1页
第1页 / 共9页
流水线与并行处理技术_第2页
第2页 / 共9页
流水线与并行处理技术_第3页
第3页 / 共9页
资源描述:

《流水线与并行处理技术》由会员分享,可在线阅读,更多相关《流水线与并行处理技术(9页珍藏版)》请在装配图网上搜索。

1、流水线与并行处理技术流水线与并行处理 1. 概述 流水线技术导致了关键路径的缩短,从而可以提高时钟速度或采样速度,或者可以在同样速度下降低功耗。在并行处理中,多个输出在一个时钟周期内并行地计算。这样,有效采样速度提高到与并行级数相当的倍数。与流水线类似,并行处理也能够用来降低功耗。 考虑3阶有限冲激响应数字滤波器: y(n) = ax(n) + bx(n-1) + cx(n-2) 其框图实现示意图如图1所示: 图1 一个3阶FIR滤波器 关键路径由1个乘法与2个加法器时间来限定。如果TM是乘法所用的时间,TA是加法操作需要的时间,Tsample是采样周期,则必须满足: Tsample TM +

2、 2TA 因而,采样频率,由下式给出: fsample 1TM+2TA流水线采用沿着数据通路引入流水线锁存器的方法来减小有效关键路径。并行处理提高采样频率是采用复制硬件的方法,以使几个输入能够并行的处理,而几个输出能够在同一时间产生出来。 2. FIR数字滤波器的流水线 其流水线实现是通过引入两个附加锁存器而得到的,如图2所示: 图2 流水线FIR滤波器,其中垂直虚线代表一个前馈割集 关键路径现在由TM + 2TA减小为TM + TA。在这种安排下,当左边的加法器启动当前迭代计算的同时,右边的加法器正在完成前次迭代结果的计算。 必须注意到,在一个M级流水线系统中,从输入到输出的任一路径上的延时

3、原件数目是,它要大于在原始时序电路中同一路径上的延时元件数。虽然流水线技术减小了关键路径,但是它付出了增加迟滞的代价。迟滞实质上是流水线系统第一个输出数据的时间与原来时序系统第一个输出数据时间相比的滞后。流水线技术缺点:增加了锁存器数目和增加了系统的迟滞。 下面要点需要注意: 一个架构的速度由任意两个锁存器间、或一个输入与一个锁存器间、或者一个锁存器与一个输出间、或输入与输出间路径中最长的路径限定。 这个最长的路径或“关键路径”可以通过在架构中适当插入流水线锁存器来减小。 流水线锁存器只能按照穿过任一图的“前馈割集”的方式插入。 割集:割集是一个图的边的集合,如果从图中移去这些边,图就成为不相

4、连的了。 前馈割集:如果数据在割集的所有边上都沿前进的方向移动,这个割集就称为前馈割集。 3. 并行技术 注意到并行处理与流水线技术互为对偶的这一特点是十分有趣,若一个计算能够排成流水线,它也能并行的处理。两种技术都发掘了计算中可供利用的并发性,只是方式不同。当一组互不相关的计算能够在一个流水线系统中按交替方式计算时,则它们也能够利用重复的硬件按并行处理的模式计算。 3阶FIR滤波器系统是一个单输入单输出系统,可描述如下: y(n) = ax(n) + bx(n-1) + cx(n-2) 为了获得一个并行处理结构,SISO系统必须转换为MISO系统。例如,下列方程组描述一个每个时钟周期由3个输

5、入的并行系统。 此处k表示时钟周期。可以看出,在第k个时钟周期,有三个输入x(3k), x(3k+1), x(3k+2)被处理,同时输出中产生3个样点。并行处理系统也称为块处理系统,而每个时钟周期内处理的输入个数被称为块尺寸。由于MISO的结构,在任意一条线处插入一个锁存器会产生一个有效延时,等于L个对应于采样率的时钟周期。每个延时原件称为一个块延时。例如,把信号x(3k)延迟一个时钟周期将导致信号x(3k-3)而非x(3k-1),因为x(3k-1)已经是另一条输入线的输入。3级并行FIR滤波器的框图架构如图3所示: 图3 一个块处理的例子 其细节图如图4所示: 图4 块尺寸为3的3阶FIR滤

6、波器的并行结构处理 注意,块或并行处理系统的关键路径保持不变,而且时钟周期必须满足: Tclk TM + 2TA 但是,由于3个样点是在同一个时钟周期内而不是三个时钟周期处理的,因此迭代周期由下式确定: Titer = Tsample = 11Tclk (TM + 2TA) 3L重要的是要理解在并行系统中Tclk Tsample,而在流水线系统中Tclk Tsample,下图给出了一个完整的并行处理系统,它包含串-并转换器和并-串转换器: 图5 块尺寸为4的完全并行处理系统 其细节如下图所示: 现在人们会问,当能够用流水线达到同样好的效果时,为什么还要并行处理呢?为什么要复制和使用这么多硬件呢

7、?回答是,流水线存在一个基本的限制,就是输入/输出的瓶颈问题。 考虑图6的芯片组: 图6 一个芯片组图 例如,若假定输出管腿、输入管腿和两个芯片之间连线的延时总和为8ns,那么Tclk必须大于或等于8ns。若关键路径的计算时间小于8ns,则I/O延时的限制将占主导地位,该系统为通信受限的系统。这实质上意味着,流水线仅在关键路径计算时间大于通信或I/O延时边界时才可以使用,一旦达到此边界后,流水线就不能进一步提高速度了。这时,流水线必须结合并行处理才能进一步提高该架构的速度。作为一个例子,考虑图7的并行滤波器: 图7 块尺寸为3的3阶FIR滤波器的并行处理架构 假定一个乘法的计算时间是10ut,

8、一个加法的计算时间为2ut。细粒流水线可用到并行滤波器中来进一步缩小关键路径。在这种情况下,乘法器分拆为两个较小的单元m1和m2,其计算时间分别为7ut和3ut。流水线锁存器插入到穿过乘法器的水平割集上,如下图所示。虽然这些水平割集看起来似乎是无效的,但是实际上它们是有效的,因为去掉这些割集的边就断开了元件间的连接。于是通过并行处理与流水线的结合,采样周期减至: (3-4) 并行处理也被通过减慢是中来减少功耗,这种方法减少功耗是由于时钟方面的原因,相比之下,流水线系统需要工作在更快的时钟下,才能保持等价的吞吐率或采样速度。进一步说,更不希望使用细粒度流水线,如位级流水线,因为硬件开销与迟滞时间

9、都会由于锁存器的显著增加而增加。 4. 流水线与并行处理的功耗减低 利用流水线和并行处理有两个主要的优点: 1)高速度 2)低功耗 由前面章节已经看出流水线与并行处理能够增加采样速度。现在考虑在采样速度不需要增加的情况下如何利用这些技术来降低功耗。 回顾一下两个公式,一个是计算CMOS电路传播延时的公式,另一个是计算功耗的公式。传播延时Tpd与在关键路径上各种晶体管栅极和杂散电容的充放电荷密切相关,对CMOS电路,传播延时可写为: Tpd = CchargeV0k(V0-Vt)2 (4-1) 其中Ccharge表示在单个时钟周期里充放电的电容,即沿着关键路径的电容,V0是电源电压,Vt是阈值电

10、压。参数k是工艺参数、W/L和Cox的函数。CMOS电路的功耗可用下列方程来估计: P = CtotalV0f (4-2) 其中Ctotal代表电路中的总电容,V0是电源电压,f是电路的时钟频率。 2图8 3阶FIR滤波器细粒度流水线与并行处理相结合的架构 4.1 用流水线降低功耗: 流水线结构可以用来降低FIR滤波器的功耗,令 Pseq = CtotalV0f (4-3) 表示原始滤波器的功耗。注意f = 1/Tseq,其中Tseq原始时序滤波器的时钟周期。现在考虑一个M级流水线系统,其关键路径缩短为原始路径长度的1/M,一个时钟周期内充放电电容减小为Ccharge/M,注意总电容没有变化。

11、如果时钟速度保持不变,即时钟频率f保持不变,在原来对电容Ccharge充放电的同样时间内,现在只需对Ccharge/M进行充放电,这意味着,电源电压可以降低到V0,其中是一个小于1的常数。这样,流水线滤波器的功耗将为: Ppip = Ctotal2V0f = 2Pseq (4-4) 22因此,和原始系统相比流水线系统的功耗降低了2倍。 图9 原始系统和3级流水线系统的关键路径 功耗降低因子可以通过考察原始滤波器和流水线滤波器传播时之间的关系来确定。原始滤波器的传播延时是 流水线滤波器的传播延时是 (4-6) 应该注意的是,时钟周期Tclk通常被设置为等于电路中的最大传播延时Tpd。因为对于这两

12、个滤波器来说使用相同的时钟速度,根据上述两个公式,从下列二次方程可以解出, (4-7) 一旦得到了,流水线滤波器降低的功耗就可以由下面公式算出: Ppip = Ctotal2V0f = 2Pseq (4-8) 24.2 用并行处理降低功耗 和流水线一样,并行处理也可以通过降低电源电压来降低功耗。在一个L路并行系统中,充电电容通常不变,而总电容增大L倍。为了保持同样的采样速度,L级并行电路的时钟周期必须增加到LTseq,其中Tseq是由公式4-5决定的时序电路的传播延时。这意味着Ccharge的充电时间是LTseq而不是Tseq。换句话说,同样的电容有了更长的充电时间。这就意味着电源电压可以降低

13、到V0。 图10 顺序流水线系统和3级流水线系统的关键路径 对传播延时的考虑可以再次用来计算L级并行系统的电源电压。原始系统的传播延时由公式3-13给出,而L级并行系统的传播延时由下式给出: (4-9) 根据公式3-13和3-22可以得到下列二次方程来就出: (4-10) 一旦求出,L路并行系统的功耗可以计算如下: (4-11) 其中Pseq是由4-3给出的原始时序系统的功能。所以,和流水线系统一样,L路并行系统功耗为原时序系统的2倍。 4.3 流水线和并行处理的结合 流水线技术和并行处理技术可以结合起来降低功耗。原理是一样的,即流水线降低1个时钟周期内充放电电容,而并行处理则增加对原电容的充

14、电放电时钟周期。 图11 并行流水线滤波器的传播延时如下: (4-12) 根据该方程,得到下列二次方程: (4-13) 应该注意的是,电源电压并不能通过使用更多级的流水线和并行处理而无限地降低,因为存在一个由工艺参数和噪声容限决定的电源电压下限。 结论: 本节内容介绍了非递归数字滤波器中的流水线和并行处理方法。这两种方法都可以用来提高滤波器的采样频率。在流水线中,流水线锁存器放置在SFG中的前馈割集处,是关键路径的计算时间降低。其结果使时钟频率的以提高,从而采样频率提高。在并行处理中,复制原始的串行系统的硬件,得到一个MIMO并行系统。在这种情况下,时钟频率不变,采样频率却增加了。此外,还说明了流水线和并行处理在低功耗设计中的应用。基本思路是利用降低电源电压的方法,用提高后的采样速度换取功耗的降低。利用快速算法,并行FIR滤波器能够以小于并行级数线性增加的硬件代价实现。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!