第2章--DSP芯片的基本结构和特征

上传人:痛*** 文档编号:116097814 上传时间:2022-07-04 格式:DOC 页数:27 大小:292.50KB
收藏 版权申诉 举报 下载
第2章--DSP芯片的基本结构和特征_第1页
第1页 / 共27页
第2章--DSP芯片的基本结构和特征_第2页
第2页 / 共27页
第2章--DSP芯片的基本结构和特征_第3页
第3页 / 共27页
资源描述:

《第2章--DSP芯片的基本结构和特征》由会员分享,可在线阅读,更多相关《第2章--DSP芯片的基本结构和特征(27页珍藏版)》请在装配图网上搜索。

1、优质文档第2章 DSP芯片的根本构造和特征2.1 引 言可编程DSP芯片是一种具有特殊构造的微处理器,为了到达快速进展数字信号处理的目的,DSP芯片一般都具有程序和数据分开的总线构造、流水线操作功能、单周期完成乘法的硬件乘法器以及一套适合数字信号处理的指令集。本章将首先介绍DSP芯片的根本构造,然后介绍TI公司的各种DSP芯片的特征,最终简要介绍其他公司的DSP芯片的特点。2.2 DSP芯片的根本构造为了快速地实现数字信号处理运算,DSP芯片一般都采纳特殊的软硬件构造。下面以TMS320系列为例介绍DSP芯片的根本构造。TMS320系列DSP芯片的根本构造包括:1哈佛构造;2流水线操作;3专用

2、的硬件乘法器;4特殊的DSP指令;5快速的指令周期。这些特点使得TMS320系列DSP芯片可以实现快速的DSP运算,并使大局部运算例如乘法能够在一个指令周期内完成。由于TMS320系列DSP芯片是软件可编程器件,因此具有通用微处理器具有的便利敏捷的特点。下面分别介绍这些特点是如何在TMS320系列DSP芯片中应用并使得芯片的功能得到加强的。 哈佛构造哈佛构造是不同于传统的冯诺曼Von Neuman构造的并行体系构造,其主要特点是将程序和数据存储在不同的存储空间中,即程序存储器和数据存储器是两个相互独立的存储器,每个存储器独立编址,独立访问。与两个存储器相对应的是系统中设置了程序总线和数据总线两

3、条总线,从而使数据的吞吐率提高了一倍。而冯诺曼构造那么是将指令、数据、地址存储在同一存储器中,统一编址,依靠指令计数器供应的地址来区分是指令、数据还是地址。取指令和取数据都访问同一存储器,数据吞吐率低。在哈佛构造中,由于程序和数据存储器在两个分开的空间中,因此取指和执行能完全重叠运行。为了进一步提高运行速度和敏捷性,TMS320系列DSP芯片在根本哈佛构造的根底上作了改良,一是允许数据存放在程序存储器中,并被算术运算指令干脆运用,增加了芯片的敏捷性;二是指令存储在高速缓冲器Cache中,当执行此指令时,不须要再从存储器中读取指令,节约了一个指令周期的时间。如TMS320C30具有64个字的Ca

4、che。 流水线与哈佛构造相关,DSP芯片广泛采纳流水线以削减指令执行时间,从而增加了处理器的处理实力。TMS320系列处理器的流水线深度从26级不等。第一代TMS320处理器采纳二级流水线,其次代采纳三级流水线,而第三代那么采纳四级流水线。也就是说,处理器CLKOUT1执行译码取指NN1N2N1N1N2NNN1可以并行处理26条指令,每条指令处于流水线上的不同阶段。图2.1所示为一个三级流水线操作的例子。图2.1 三级流水线操作在三级流水线操作中,取指、译码和执行操作可以独立地处理,这可使指令执行能完全重叠。在每个指令周期内,三个不同的指令处于激活状态,每个指令处于不同的阶段。例如,在第N个

5、指令取指时,前一个指令即第N-1个指令正在译码,而第N-2个指令那么正在执行。一般来说,流水线对用户是透亮的。 专用的硬件乘法器在一般形式的FIR滤波器中,乘法是DSP的重要组成局部。对每个滤波器抽头,必需做一次乘法和一次加法。乘法速度越快,DSP处理器的性能就越高。在通用的微处理器中,乘法指令是由一系列加法来实现的,故需很多个指令周期来完成。相比而言,DSP芯片的特征就是有一个专用的硬件乘法器。在TMS320系列中,由于具有专用的硬件乘法器,乘法可在一个指令周期内完成。从最早的TMS32010实现FIR的每个抽头算法可以看出,滤波器每个抽头须要一条乘法指令MPY:LT;装乘数到T存放器DMO

6、V;在存储器中移动数据以实现延迟MPY;相乘APAC;将乘法结果加到ACC中其他三条指令用来将乘数装入到乘法器电路 LT,移动数据DMOV以及将乘法结果存在乘积存放器P中加到ACC中APAC。因此,假设采纳256抽头的FIR滤波器,这四条指令必需重复执行256次,且256次乘法必需在一个抽样间隔内完成。在典型的通用微处理器中,每个抽头须要30 40个指令周期,而TMS32010只需4条指令。假如采纳特殊的DSP指令或采纳 TMS320C54X等新一代的DSP芯片,可进一步降低FIR抽头的计算时间。 特殊的DSP指令DSP芯片的另一个特征是采纳特殊的指令。节中介绍的DMOV就是一个特殊的DSP指

7、令,它完成数据移位功能。在数字信号处理中,延迟操作特别重要,这个延迟就是由DMOV来实现的。TMS32010中的另一个特殊指令是LTD,它在一个指令周期内完成LT、DMOV和APAC三条指令。LTD和MPY指令可以将FIR滤波器抽头计算从4条指令降为2条指令。在其次代处理器中,如TMS320C25,增加了2条更特殊的指令,即RPT和MACD指令,采纳这2条特殊指令,可以进一步将每个抽头的运算指令数从2条降为1条:RPTK255;重复执行下条指令256次MACD;LT, DMOV, MPY 及 APAC 快速的指令周期哈佛构造、流水线操作、专用的硬件乘法器、特殊的DSP指令再加上集成电路的优化设

8、计,可使DSP芯片的指令周期在200ns 以下。TMS320系列处理器的指令周期已经从第一代的200ns降低至此时此刻的20ns 以下。快速的指令周期使得DSP芯片能够实时实现很多DSP应用。2.3 TI定点DSP芯片自1982年TI推出第一个定点DSP芯片TMS32010以来,TI的定点DSP芯片已经经验了TMS320C1X、TMS320C2X/C2XX、TMS320C5X 、TMS320C54X、TMS320C62X等几代产品,产品的性能价格比不断提高,应用越来越广泛。下面分别介绍这些芯片的主要特征。 TMS320C1X.1 根本特点第一代TMS320系列DSP芯片包括:TMS32010、

9、TMS32011、TMS320C10、 TMS320C15/E15和TMS320C17/E17。其中,TMS32010和TMS32011采纳2.4mm的 NMOS 工艺,而其他几种那么采纳1.8mm CMOS工艺。这些芯片的典型工作频率为20MHz。TMS320第一代DSP芯片的主要特点如下: 指令周期:160ns/200ns/280ns 片内RAM:144字/256字TMS320C15/E15/C17/E17 片内ROM:1.5K字/4K字TMS320C15/C174K字片内程序EPROMTMS320E15/E174K字外部全速存储器扩展 并行乘法器:乘积为32位 桶形移位器:将数据从存储器

10、移到ALU 并行移位器 允许文本交换的412位堆栈 两个间接寻址的协助存放器 双通道串行口TMS32011,TMS320C17/E17 片内压扩硬件TMS32011,TMS320C17/E17 协处理器接口TMS320C17/E17 器件封装:40脚双列直插DIP/44脚塑封PLCC.2 TMS320C10TMS320 DSP芯片的第一代产品是基于TMS32010和它的CMOS版本TMS320C10的构造。TMS32010于1982年推出,是第一个能够到达 5 个MIPS的微处理器。TMS32010采纳改良的哈佛构造,即程序和数据空间相互独立。程序存储器可在片内1.5K字或片外4K字。片内数据

11、RAM为144字。有四个根本的算术单元:算术逻辑单元ALU、累加器ACC、乘法器和移位器。(1) ALU:32位数据操作的通用算术逻辑单元。ALU可进展加、减和逻辑运算;(2)ACC:累加器存储ALU的输出,也是ALU的一个输入。它采纳32位字长操作,分高16位和低16位两局部。处理器供应高16位和低16位的特地指令:SACH高16位和SACL低16位;(3) 乘法器:1616位并行乘法器由三个单元组成:T存放器、P存放器和乘法器阵列。T存放器存储被乘数,P存放器存储32位乘积。为了运用乘法器,被乘数首先必需从数据RAM中装入到T存放器,可用LT、LTA和LTD指令。然后执行MPY乘或MPYK

12、乘马上数指令。乘和累加器操作可用LTA、LTD和MPY、MPYK指令在两个指令周期内完成;(4) 移位器:有两个移位器可用于数据移位。一个是桶形移位器,另一个是并行移位器。桶形移位器又称定标移位器。当数据存储器的数据送入累加器或与累加器中的数据进展运算时,先通过这个移位器进展016位左移,然后再进展运算。并行移位器即输出移位器,其作用是将累加器中的数据左移0、1或4位后再送入数据存储器中,以实现小数运算或小数乘积的调整。在TMS32010/C10根底上又派生了多个处理器,它们可供应不同的处理器速度、存储器扩展和各种I/O集成。.3 TMS320C1X的其他芯片1TMS320C15/E15TMS

13、320C15/E15与TMS32010的代码和管脚全兼容,供应256字的片内RAM和4K字的片内ROMC15或EPROME15。TMS320C15的指令周期有200ns和160nsTMS320C15-25两种。2TMS320C17/E17TMS320C17/E17是一个专用的微处理器。它有4K字的片内程序ROMC17或EPROME17,一个全双工串行通信的双通道串行口,片内硬件压扩器m律/A律,一个用于串行通信的串行口定时器,及一个协处理器接口。协处理器接口可以在处理器和4/8/16位微处理器之间供应干脆接口。TMS320C17/E17与TMS32010目标代码兼容,且可用一样的开发工具。该处

14、理器是基于TMS320C10的CPU内核,外加片内的外设存储器和I/O模块。TMS320C17/E17可认为是半定制的DSP芯片。表2.1 是TMS320第一代产品的比拟表。表2.1 TMS320第一代处理器DSP芯片指令周期ns制造工艺片内程序ROM字片内程序EPROM字片内数据RAM字片外程序字TMS32010200NMOS1.5K1444KTMS32010-25160NMOS1.5K1444KTMS32010-14280NMOS1.5K1444KTMS32011200NMOS1.5K144TMS320C10200CMOS1.5K1444KTMS320C10-25160CMOS1.5K14

15、44KTMS320C15200CMOS4K2564KTMS320C15-25160CMOS4K2564KTMS320E15200CMOS4K2564KTMS320C17200CMOS4K256TMS320C17-25160CMOS4K256TMS320E17200CMOS4K256 TMS320C2X其次代TMS320 DSP芯片包括TMS32020、TMS320C25/E25、TMS320C26及TMS320C28。在这些芯片中,TMS32020是一个过渡的产品,其指令周期为200ns,与TMS32010相当,而其硬件构造那么与TMS320C25一样。在其次代DSP芯片中,TMS320C25

16、是一个典型的代表,其他芯片都是由TMS320C25派生出来的。其中TMS320E25将内部4K字的ROM改为EPROM;TMS320C26去掉了内部的4K字ROM,而将片内RAM增加到1.5K字;TMS320C28那么将内部ROM增加到8K字。由于TMS320C25的典型性,下面就探讨TMS320C25的根本特征和构造。.1 TMS320C25的根本特征 指令周期: TMS320C25:100ns,TMS320C25-33:120ns,TMS320C25-50:80ns 片内掩膜ROM:4K 字 片内RAM:544字,分B0、B1和B2三块 程序和数据空间均为64K字 具有8级硬件堆栈、8个协

17、助存放器 具有全静态双缓冲串行口,可与很多串行器件干脆接口 与低速片外存储器通信的等待状态插入 采纳HOLD操作的DMA FFT变换用的比特反转寻址 扩展精度算术和自适应滤波支持 从外部存储器全速执行的MAC/MACD指令 具有在多处理器之间进展同步的实力,支持多处理器共享存储器 1.8m CMOS工艺,68脚PGA或PLCC封装.2 TMS320C25的构造TMS320C25是其次代TMS320中与TMS32020管脚全兼容的CMOS版本,但指令执行速度是TMS32020的2倍,且增加了硬件和软件资源。指令集是TMS32010和TMS32020的超集,在源代码级与它们兼容。此外,在代码级与T

18、MS32020兼容,因此,TMS32020的程序可不用修改干脆在TMS320C25上运行。100ns的指令周期可供应较强的运算实力。由于大局部指令在一个指令周期内执行,处理器在1秒内可执行1000万条指令10MIPS。运算实力的增加主要得益于乘累加指令MAC和带数据移位的乘累加指令MACD、具有专用算术单元的8个协助存放器、适合于自适应滤波和扩展精度运算的指令集支持、比特反转寻址、快速的I/O支持等。指令集中供应在两个存储空间中进展数据移动的指令。在外部,程序和数据存储空间在同一总线上复用,从而使得在尽量削减芯片引脚的状况下最大程度地扩大两个空间的地址范围。在内部,TMS320C25构造通过保

19、持程序和数据总线构造分别以使指令全速执行来获得最大的处理实力。芯片内部的程序执行采纳三级流水线形式。流水线对用户来说是透亮的。但是,在某些状况下流水线可能被打断如跳转指令,在这种状况下,指令执行时间要考虑流水线必需清空和重新填充。两块大的片内RAM在系统设计时供应了很大的敏捷性,其中一块既可配置为程序存储器也可配置为数据存储器。片外64K字的数据空间可干脆寻址,从而使DSP算法实现更为便利。片内4K字的掩膜ROM可用来降低系统本钱,假设程序不超过4K字,可使TMS320C25不用扩展片外程序存储器。剩下的64K字程序空间在片外,大量的程序可在片外存储器中全速运行。程序也可从片外慢速EPROM中

20、装入到片内高速RAM中全速运行。此外,还有硬件定时器、串行口和数据块搬移功能。下面介绍TMS320C25的存储器安排、中心算术逻辑单元CALU、硬件乘法器、限制操作、串行口和I/O接口。1存储器安排TMS320C25具有4K字的片内程序ROM和544字的片内RAM。RAM分为三块:B0、B1、B2。其中,B0块256字既可配置为数据存储器用CNFD指令,也可配置为程序存储器用CNFP指令。其余288字B1和B2块只能是数据存储器。544字的片内RAM可使C25能处理512字的数据阵列,如可进展256点复数FFT运算,且尚有32字用作中间结果的暂存。TMS320C25供应片外可干脆寻址的程序和数

21、据空间各64K字。存放器组包含8个协助存放器AR0AR7,它们可用作数据存储器的间接寻址和暂存,从而增加芯片的敏捷性和效率。这些存放器既可用指令干脆寻址,也可用3比特的协助存放器指针ARP间接寻址。协助存放器和ARP既可从数据存储器装数,也可装入马上数。存放器的内容也可存入数据存储器中。协助存放器组与协助存放器算术单元ARAU相连接,用ARAU访问信息表无需CALU参加地址操作,这样可让CALU进展其他操作。2中心算术逻辑单元CALU包含一个16位的定标移位器Scaling,一个1616位的并行乘法器,一个32位的累加器和一个32位的算术逻辑单元ALU。移位器依据指令要求供应0到16位的数据左

22、移。累加器和乘法器输出端的移位器适合于数值的归一化、比特提取、扩展精度算术和溢出爱护。典型的ALU指令实现包含以下三步:(1) 数据在数据总线上从RAM中获得;(2) 数据移交给完成算术运算的定标移位器和ALU;(3) 结果送回累加器。32位累加器可分为2个16位以进展数据存储:SACH高16位和ACCL低16位。累加器有一个进位位可便利加法和减法的多精度运算。3硬件乘法器TMS320C25具有一个1616位的硬件乘法器,它能在一个指令周期内计算一个32位乘积。有两个存放器与乘法器相关:16位暂存存放器TR,用于保存乘法器的一个操作数;32位乘积存放器PR,用于保存乘积。乘积存放器的输出可左移

23、1位或4位,这对于实现小数算术运算或调整小数乘积很有用。PR的输出也可右移6位,这样可连续执行128次乘/加而无溢出。无符号乘MPYU指令可便利扩展精度乘法。4I/O接口I/O空间由16个输入口和16个输出口组成。这些口可供应全16位并行I/O接口。输入IN和输出OUT操作典型的是2个周期,但假设用重复指令,可变成单周期指令。I/O器件映射到I/O地址空间,其方式与存储器映射方式一样。与不同速度的存储器或I/O器件接口采纳READY线完成。TMS320C25也支持外部程序/数据存储器的DMA,其他处理器通过置HOLD 为低后可完全限制TMS320C25的外部存储器,使C25将其地址、数据和限制

24、线呈高阻状态。外部处理器和C25的通信可通过中断来完成。TMS320C25芯片供应两种DMA方式,一种是加上HOLD后停顿执行;另一种是C25接着执行,但执行是在片内ROM和RAM中进展,这可大大提高性能。.3 TMS320C25的软件TMS320C25的指令总共有133条,其中97条是单周期指令。在另外36条指令中,21条包括跳转、调用、返回等,这些指令需重新装入程序计数器,使执行流水线中断。另外7条指令是双字和长马上数指令。剩下的8条指令IN,OUT,BLKD,BLKP,TBLR,TBLW,MAC,MACD支持I/O操作、存储器之间的数据交换或供应处理器内部额外的并行操作,而且这8条指令与

25、重复计数器协作运用时可成为单周期指令。这主要利用了处理器的并行机制,使得困难的计算可用很少的几条指令来完成。由于大多数指令用单16位字编码,故可在一个周期内完成。存储器寻址方式有三种:干脆寻址、间接寻址和马上数寻址。干脆寻址和间接寻址都用来访问数据存储器,马上数寻址利用由程序计数器确定的存储器内容。运用干脆寻址方式时,指令字的7位和9位数据存储器页指针DP构成16位的数据存储器地址。其中,每页长128字,共有512页,故可寻址64K的数据空间。间接寻址借助于8个协助存放器AR0AR7。表2.2 列出了7种间接寻址方式。其中的比特反转寻址可大大提高 FFT运算的I/O效率。其中,OP表示某种运算

26、,NARP表示新的ARP。表2.2 TMS320C25的寻址方式寻址方式操 作OP A干脆寻址OP *,NARP间接寻址;AR不变OP *+,NARP间接寻址;当前AR加1OP *-,NARP间接寻址;当前AR减1OP *0+,NARP间接寻址;AR0加到当前AROP *0-,NARP间接寻址;当前AR减去AR0OP *BR0+,NARP间接寻址;AR0加到AROP *BR0-,NARP间接寻址;当前AR减去AR0 TMS320C5XTMS320C5X是TI公司的第五代产品,是继TMS320C1X和TMS320C2X之后的第三代定点DSP处理器。它的核心中心处理器CPU以TMS320C25的核

27、心CPU为根底,增加型构造大幅度地提高了整体性能。TMS320C5X工作速度是TMS320C25的2倍以上,对于TMS320C1X和TMS320C2X具有源代码向上兼容特性。这种兼容性保存了过去开发的软件,便于系统升级到更高性能的DSP系统。TMS320C5X系列有TMS320C50/C51/C52/C53等多种产品,它们的主要区分是片内RAM、ROM等资源的多少,如TMS320C50内部具有10K字RAM和2K字ROM,其中2K字ROM已经固化了引导程序;TMS320C51内部具有2K字RAM和8K字ROM;TMS320C52内部具有1K字RAM和4K字ROM,削减了一个串行口;TMS320

28、C53内部那么有4K字RAM和16K字ROM。芯片的其他性能那么是完全一样的。下面以TMS320C50为例介绍TMS320C5X DSP 芯片。.1 TMS320C50的根本特征TMS320C50的主要特点包括:25/35/50ns的指令周期20 40 MIPS224K16位最大可寻址外部存储空间64K程序、64K数据、64K I/O、32K全局 算术逻辑单元ALU,32位累加器ACC以及32位加法器的缓冲器ACCB 并行逻辑单元PLU 结果具有32位的1616位并行乘法器 单周期乘累加指令 具有一个专用算术单元的8个协助存放器,可用于间接寻址8级硬件堆栈016位数据左移和右移 两个间接寻址的

29、循环缓冲器,用于循环寻址 程序代码的单指令重复和程序块重复 全双工同步串行口,用于完成TMS320C5X与其他串行器件之间的干脆通信 时分多址访问TDM 串行口 内部定时器,可用软件限制64K 并行I/O 口,其中16个有存储器映像 可软件编程的等待状态发生器 扩展保持操作,用于并发外部DMA 四级流水线操作,用于延迟跳转、调用、返回指令 比特反转寻址方式,用于FFT运算 JTAG扫描仿真接口IEEE标准,P1149.11核心CPUTMS320C5X CPU的增加功能在提高性能和通用性的同时,保持了对TMS320C1X和TMS320C2X源代码的兼容性。硬件的改良包括:一个32位累加器缓冲器,

30、附加定标实力,利用附加硬件功能的新指令。新的限制功能包括:独立的并行逻辑单元PLU和一组文本交换存放器。数据管理方面的改良包括:采纳新的块搬移指令和存储器映像存放器指令。TMS320C50有28个存储器映像存放器和16个存储器映像的I/O口。2片内ROMTMS320C50拥有2K16位掩蔽ROM,内部固化了引导程序。该存储器把程序从外部ROM/EPROM、串行口或并行I/O口引导至运行速度较快的SRAM中。这块引导ROM可通过PMST状态存放器中的MP/MC 位从程序存储空间去除。假如该ROM未选,那么TMS320C50由片外存储器启动执行。3片内数据RAMTMS320C50具有1056字的片

31、内RAM,这块RAM 可在每个机器周期内访问两次双寻址RAM,只要两次访问不是“写”操作。这块存储空间主要用于存储数据,但是假如须要也可用于存储程序和数据。其配置有两种方式:全部的1056字都作为数据存储区,或者将其中的544字作为数据存储器,512字作为程序存储区。可通过状态存放器ST1中的CNF位选择设置。4片内程序/数据RAMTMS320C50还具有9K字的片内RAM。这一存储区可以由软件设置映射到程序或数据存储空间。程序从片外存储器引导后,可装入到该存储区全速运行。5片内存储器平安TMS320C50可以通过可屏蔽选择来爱护片内存储器的内容。当相关比特置位时,外部无法访问片内存储空间。6

32、有地址映射的软件等待状态发生器软件等待状态逻辑不须要任何外部硬件就可以实现TMS320C50与速度较慢的片外存储器和I/O设备接口。该电路系统拥有16个等待状态发生器,其中可由用户编程操作的有0,1,2,3和7状态。7并行I/O口TMS320C50共有64K I/O口,其中的16个可映射在数据存储空间。这些口可由IN或OUT指令寻址。具有存储器映像的I/O口可按存储器的读写方式访问。I/O口的访问由IS线选通。增加简洁的片外地址译码电路,就可实现TMS320C50的I/O口与外部I/O设备的简洁连接。8串行I/O口TMS320C50有两个高速串行口。串行口最快可按1/4机器周期CLKOUT1操

33、作。一个是同步全双工串行口,发送和接收都有缓冲,分别由可屏蔽外部中断信号限制,数据可遵照8或16位方式传输;另一个串行口为全双工串口,可设置为同步方式,也可设置为时分多址TDM方式,TDM串行口一般用于多处理机系统。916位硬件定时器16位硬件定时器可由软件进展限制,通过设置相应的状态位,定时器可工作在停顿、重启动、复位或不工作等状态。10用户可屏蔽中断TMS320C50有4个外部中断线。片内的中断锁存电路可实现异步中断操作。此外,还有5个内部中断:1个定时器中断和4个串行口中断。11JTAG扫描逻辑JTAG扫描逻辑电路用于仿真和测试,采纳JTAG可实此时此刻线仿真。.2 TMS320C50的

34、构造TMS320C50采纳了与TMS320C25类似的哈佛型总线构造,通过两个独立的数据总线和程序总线,最大限度地提高运算速度。指令支持在两个存储区之间的数据传输。TMS320C50运用32位的ALU和累加器以实现2的补码运算。ALU是一个通用的算术单元,它所运用的运算数据16位来自数据RAM或来自马上数指令,也可以是乘积存放器中32位的乘积结果。除此之外,ALU还可以执行位操作。累加器保存ALU的输出,也为ALU供应下一个输入。字长为32位的累加器分为高字节和低字节。指令供应对低字节和高字节的单独存储。32位的累加器缓冲器用于临时快速地存储累加器的内容。除了ALU之外,并行逻辑单元PLU可以

35、在不影响累加器内容的状况下对数据进展逻辑操作。PLU供应了高速限制器须要的位处理实力,并简化了限制和状态存放器须要的置位、清零和测试操作。乘法器以单指令周期完成1616位的乘法,结果为32位。乘法器由三局部组成,分别是乘法器阵列、PREG乘积存放器、TREG0临时存放器。16位的TREG0存储乘数,PREG保存32位的乘积结果。乘法器中的数值来自数据存储器,当运用MAC/MACD/MADS/MADD指令时来自程序存储器,或者来自乘马上数指令MPY #。片内快速乘法器对执行诸如卷积、相关和滤波等根本的DSP操作特别有效。TMS320C50的定标移位器有一个16位的输入来自数据总线,32位的输出连

36、接到ALU。定标移位器依照指令的编程使输入数据产生0到16位的左移。移位量取决于指令或移位计数存放器TREG1中的定义值。输出的最低有效位LSB补零,最高有效位补0或符号扩展取决于状态存放器ST1的符号扩展模式位SXM。附加的移位实力使处理器能执行数值定标、二进制位提取、符号扩展运算和溢出防止等功能。8级硬件堆栈用于在中断及子程序调用时保存程序计数器的内容。中断发生时,重要存放器ACC、ACCB、ARCR、INDX、PMST、PREG、ST0、ST1和TREG压入堆栈,中断返回时弹出,实现了无开销的中断文本切换。 TMS320C2XXTMS320C2XX是继TMS320C2X和TMS320C5

37、X之后出现的一种低价格、高性能定点DSP芯片,主要包括TMS320C20X、TMS320C24X两个子系列。TMS320C2XX系列DSP芯片具有如下特点:(1) 处理实力强。指令周期最短为25ns,运算实力达40MIPS;(2) 片内具有较大的闪耀存储器。TMS320C2XX是最早运用闪耀存储器的DSP芯片。闪耀存储器具有比ROM敏捷、比RAM廉价的特点。TMS320F206和TMS320F207片内具有32K字的闪耀存储器和4.5K字的RAM。利用闪耀存储器存储程序,不仅降低了本钱,减小了体积,同时系统升级也比拟便利;(3) 功耗低。TMS320C2XX系列DSP芯片在5V工作时每个MIP

38、S消耗1.9mA,在3.3V工作时每个MIPS消耗1.1mA。运用DSP核的省电模式可进一步降低功耗;(4) 资源配置敏捷。现有10多种具有不同资源配置的芯片。表2.3是TMS320C2XX系列DSP芯片比拟表。此外,TMS320C24X系列芯片为数字限制系统的应用做了优化设计。表2.3 TMS320C2XX系列芯片的资源配置TMS320C2XX指令周期ns片内ROM字片内RAM字片内FLM字同步串行口异步串行口C20325/35/5054411C20425/35/504K54411C20525/35/504.5K11F20625/35/504.5K32K11F20725/35/504.5K3

39、2K21C20935/504K4.5KC2405016K54411F2405054416K11C241508K54411F241505448K11C242504K54411F243505448K11 TMS320C54XTMS320C54X是为实现低功耗、高性能而特地设计的定点DSP芯片,其主要应用是无线通信系统等。该芯片的内部构造与TMS320C5X不同,因而指令系统与TMS320C5X和TMS320C2X等是互不兼容的。 TMS320C54X的主要特点包括:(1) 运算速度快。指令周期为25/20/15/12.5/10ns,运算实力为40/50/66/80/100 MIPS;(2) 优化的

40、CPU构造。内部有1个40位的算术逻辑单元,2个40位的累加器,2个40位加法器,1个1717的乘法器和1个40位的桶形移位器。有4条内部总线和2个地址产生器。此外,内部还集成了维特比加速器,用于提高维特比编译码的速度。先进的DSP构造可高效地实现无线通信系统中的各种功能,如用TMS320C54X实现全速率的GSM 需12.7 MIPS,实现半速率GSM 需26.2 MIPS,而实现全速率GSM 语音编码器仅需2.3 MIPS,实现IS-54/136 VSELP语音编码仅需12.8 MIPS;(3) 低功耗方式。TMS320C54X可以在3.3V或2.7V电压下工作,三个低功耗方式IDLE1、

41、IDLE2和IDLE3可以节约DSP的功耗,TMS320C54X特殊适合于无线移动设备。用TMS320C54X实现IS54/136 VSELP语音编码仅需31.1mW,实现GSM 语音编码器仅需5.6mW;(4) 智能外设。除了标准的串行口和时分复用TDM串行口外,TMS320C54X还供应了自动缓冲串行口BSPauto-Buffered Serial Port和与外部处理器通信的HPIHost Port Interface接口。BSP可供应2K字数据缓冲的读写实力,从而降低处理器的额外开销,指令周期为20ns时,BSP的最大数据吞吐量为50M bit/s,即使在IDLE方式下,BSP也可以全

42、速工作。HPI可以与外部标准的微处理器干脆接口。表2.4是TMS320C54X系列局部DSP芯片比拟表。表2.4 TMS320C54X的资源配置TMS320C54X指令周期ns工作电压V片内RAM字片内ROM字串行口BSPHPIC54120/255/3.3/3.05K28K2个标准口C54220/255/3.3/3.010K 2K1个TDM口11C54320/253.3/3.010K2K1个TDM口1C54520/253.3/3.06K48K1个标准口11C54620/253.3/3.06K48K1个标准口1C54815/20/253.3/3.032K2K1个TDM口21LC/VC54910/

43、12.5/153.3/2.532K16K1个TDM口21VC5402103.3/1.816K4K21 TMS320C62X这是TI公司于1997年开发的一种新型定点DSP芯片。该芯片的内部构造与以前的DSP芯片不同,内部集成了多个功能单元,可同时执行8条指令,运算实力达1600MIPS。其主要特点有:(1) 运行速度快。指令周期为5ns,运算实力为1600MIPS;(2) 内部构造不同于一般DSP芯片。内部同时集成了2个乘法器和6个算术运算单元,且它们之间是高度正交的,使得在一个指令周期内最大能支持8条32bit的指令;(3) 指令集不同。为充分发挥其内部集成的各执行单元的独立运行实力,TI公

44、司运用了VelociTT 超长指令字VLIW构造。它在一条指令中组合了几个执行单元,结合其独特的内部构造,可在一个时钟周期内并行执行几个指令;(4) 大容量的片内存储器和大范围的寻址实力。片内集成了512K字程序存储器和512K字数据存储器,并拥有32bit的外部存储器界面;(5) 智能外设。内部集成了 4个DMA接口,2个多通道缓存串口,2个32bit 计时器;(6) 低廉的运用本钱。在一个无线基站的应用中,每片TMS320C62X能同时完成30路的语音编解码,每路本钱为3美元,而以前的DSP系列最大只能完成5路,每路的本钱为7美元。这种芯片适合于无线基站、无线PDA、组合Modem、GPS

45、导航等须要大运算实力的应用场合。2.4 TI浮点DSP芯片 TMS320C3XTMS320C3X是TI的第三代产品,也是第一代浮点DSP芯片。TMS320C3X中目前具有TMS320C30、TMS320C31和TMS320C32三种。TMS320C31是TMS320C30的简化和改良型,它在TMS320C30的根底上去掉了一般用户不常用的一些资源,降低了本钱,是一特性能价格比拟高的浮点处理器,在国内已得到了较广泛的应用。TMS320C32是TMS320C31的进一步简化和改良。表2.5示出了三种芯片的比拟。表2.5 三种TMS320C3X芯片的比拟特征TMS320C30TMS320C31TMS

46、320C32数据/程序总线主总线STRB:32位数据,24位地址扩展总线IOSTRB:32位数据,13位地址STRB:32位数据,24位地址STRB0:8/16/32位 STRB1: 8/16/32位IOSTRB:32位内部RAM2K字2K字512字串行I/O口2个串行口1个串行口1个串行口用户程序、数据ROM4K字/16K字节无无DMA限制器单通道单通道双通道程序和数据存储器宽度32位32位程序16/32位可选数据8/16/32位可选外部中断触发电平触发电平触发电平/边沿可选中断矢量表地址固定固定用户可重定位程序引导无用户可选用户可选TMS320C30的指令周期为50/60/74ns,TMS

47、320C31的指令周期为33/40/50/60/74ns,TMS320C32的指令周期那么为33/40/50ns。.1 TMS320C3X的硬件资源TMS320C30的硬件资源相当丰富。其内部包含了2K32位的快速RAM块。分开的程序总线、数据总线和DMA总线使得取指、读写数据和DMA操作可并行进展,如CPU可以在一个周期内完成以下操作: 在一个RAM块中存取两个数据值,进展一次外部取指,DMA装入到另一个RAM块。6432位的指令Cache用来存储经常运用的代码块,这可大大削减片外访问的次数,从而提高程序运行速度。由于主总线的地址总线是24位,因此TMS320C30可以访问多达16M的32位

48、字的存储器空间,程序、数据和I/O空间都包含在TMS320C30这个16M字的空间中。TMS320C30有一个40/32位的浮点/整数乘法器,这个乘法器可以在单周期内完成24位整数和32位浮点值的乘法,为了到达更高的性能,可以采纳并行指令在单周期内完成一次乘法和ALU操作。当乘法器进展浮点乘法时,输入是32位单精度浮点值,而输出那么是40位的扩展精度浮点数。整数乘法时,输入是24位,而输出那么是32位。TMS320C30的整数/浮点算术逻辑运算单元ALU可以进展单周期的32位整数、32位逻辑数和40位的浮点数操作,ALU的运算结果是32位整数或40位浮点数。内部的桶形移位器可以在单周期内进展高

49、达32位的左移或右移。内部总线CPU1/CPU2和REG1/REG2可从存储器中取两个操作数和从存放器取两个操作数,这就使得对四个操作数进展乘和加/减可以在单周期内完成。TMS320C30内有两个协助存放器算术单元ARAU0和ARAU1, 它们可以在单周期内产生两个地址。ARAU 的操作是和乘法器及ALU的操作并行进展的。ARAU支持多种寻址方式。TMS320C30供应28个存放器,这些存放器可以由乘法器和ALU操作,可以用作通用的存放器。但是,它们也有一些特殊的功能,如8个扩展精度的存放器R0R7可当累加器运用,特殊适合用于存放扩展精度的浮点结果。8个协助存放器AR0AR7支持一系列间接寻址

50、方式,并且可以用作通用的32位整数和逻辑存放器。其他存放器供应一些系统功能,如寻址、堆栈管理、处理器状态、中断和块重复等。TMS320C30的外设是通过存储器映射的存放器对外设总线进展限制的,外设总线由32位数据总线和24位地址总线组成,允许与外设干脆通信。TMS320C30的外设包括两个可支持8/16/24/32位数据交换的串行口和两个32位定时器。串行口的时钟可以由内部产生也可由外部供应,串行口的引脚可以配置为通用的I/O引脚,特殊的握手方式可保证TMS320C30与串行口的同步。定时器是通用的32位定时器或事务计数器,具有两种信号方式,可由内部或外部供应时钟,每个定时器对应有一个I/O引

51、脚,可作为定时器的输入时钟或输出时钟,也可配置为通用的I/O引脚。片内的DMA功能使得CPU与I/O操作可同时进展。DMA限制器可以在存储器的任何地址进展读写操作而不干扰CPU的操作,因此TMS320C30可与外部的慢速存储器或外设接口而不降低CPU的吞吐量。两个通用的外部引脚XF0,XF1可由软件设置为输入或输出,这两个引脚也用作TMS320C30的互锁操作,用于多处理器之间的通信。除了主总线之外,TMS320C30还有一条扩展总线。扩展总线的数据线为24位,地址线为13位,其操作可与主总线操作同时进展,也可独立于主总线。与主总线相比,扩展总线上的I/O口的读写周期为2个H1周期,即是主总线

52、的2倍。扩展总线通常用于I/O操作,如A/D、D/A等。TMS320C30内部有4K字的ROM,在微计算机方式下,程序由内部起先运行。TMS320C31是TMS320C30的简化和改良型,它去掉了扩展总线、一个串行口和内部的4K字ROM,增加了程序的引导功能。当MCBL/MP引脚为高电平常,工作于微计算机自引导方式,在这种方式下,TMS320C31可从三个特定的地址装入程序BOOT1,BOOT2,BOOT3,也可从串行口装入程序。与EPROM接口时,用户可用软件设定等待周期个数,当然也可用硬件来产生等待周期,可设定是按字节8位、半字16位或字32位装入,应用敏捷。从串行口装入时,采纳固定的32

53、位突发方式。装入方式设置是通过复位之后设置四个外部中断之一来实现。TMS320C32是TMS320C31的简化和改良型。简化主要是将内部的RAM由2K字削减为512字,以降低本钱。改良之处包括:外部存储器宽度可变,中断矢量表可重定位,外部中断可由软件选择是电平触发还是边沿触发,DMA限制器增加了一个通道,此外,还增加了两种节电运行方式。TMS320C3X均供应HOLD功能和JTAG仿真功能。.2 TMS320C3X的软件资源1丰富的指令系统TMS320C3X的汇编语言指令集特殊适合于数字信号处理。全部指令占一个机器字长,大局部指令是单周器的。指令集共有113条指令,可以分为六类: 数据传送类、

54、二操作数算术/逻辑类、三操作数算术/逻辑类、程序限制类、互锁操作类及并行操作类。12条数据传送指令可从存储器中读一个字装入存放器,将一个字从存放器中存入存储器中及进展堆栈操作。二操作数指令有35条,供应整数、浮点、逻辑运算及多精度算术操作。17条三操作数指令可以在一个指令周期内完成具有三个操作数的运算,其中两个是源操作数,另一个是目的操作数。程序限制指令共16条,它们影响程序的流向,其中有块重复指令RPTB和单指令重复指令RPTS。除了有标准跳转指令外,还有延迟跳转指令,有些指令具有条件运算功能。5条互锁操作指令主要用来进展多处理器之间的通信。剩下的28条指令都是并行操作指令,每条并行指令由两

55、条指令用符号“|”连接,并行操作指令可使“|”前后的两条指令并行完成。须要留意的是,并不是随意两条指令都可构成并行指令。2敏捷的程序限制TMS320C3X供应相当敏捷的程序流限制。软件的程序限制包括重复、跳转、调用、陷阱及返回等。TMS320C3X重复方式可以实现无开销循环。块重复指令RPTB可以使一块代码重复执行指定的次数,而单指令重复指令RPTS使一条指令重复执行指定的次数,由于RPTS取指次数只有一次,因此削减了总线冲突的时机。这里须要特殊留意的是,RPTS指令制止中断,而RPTB无此禁忌。因此在须要中断的场合,建议采纳RPTB指令代替RPTS指令。TMS320C3X供应两种类型的跳转:

56、标准跳转和延迟跳转。标准跳转首先将流水线清空然后执行跳转,这可保证程序计数器的正确管理,但却使跳转指令需4个周期才能执行完毕。延迟跳转那么相反,它并不将流水线清空,而是保证在程序跳转之前执行它下面的3条指令,这样使得跳转指令本身仅需1个指令周期。当然有些指令如CALL、RPTB等不能出此时此刻延迟跳转指令下面的3条指令。延迟跳转指令在它下面3条指令完成前制止中断。互锁操作可用来实现多个TMS320C3X之间的通信。通过采纳外部信号XF0,XF1,互锁操作指令供应强有力的同步机制,可用来实现忙等待循环、两个TMS320C3X之间的同步无需额外的硬件支撑和多个计数器限制等。3流水线操作流水线操作是

57、TMS320C3X具有高性能的特性之一。5个功能单元限制TMS320C3X的操作:取指F、译码D、读操作数R、执行E和DMA。流水线操作就是一个根本指令的取指、译码、读操作数和执行的并行操作。流水线的构造如图2.2所示。周期FDREm-3Wm-2XWm-1YXWmZYXW 完全重叠m+1ZYXm+2ZYm+3Z注:W、X、Y、Z代表指令;F、D、R、E分别代表取指、译码、读操作数和执行。图2.2 TMS320C3X的流水线构造图中在m周期,流水线完全重叠,4个单元的操作同时进展。5个功能单元的优先级从高到低依次是E、R、D、F、DMA。当一条指令的处理已经打算好到流水线的下一级,但那一级还没有

58、打算好接收新的输入时,就出现所谓的流水线冲突。在这种状况下,低优先级的单元处于等待状态直到高优先级的单元完成它的当前操作。尽管DMA的优先级最低,但由于DMA限制器具有自己的数据和地址总线,因此,通过适宜的数据构造,DMA与CPU的冲突可以削减甚至消退。流水线冲突可以分为以下三大类:跳转冲突、存放器冲突和存储器冲突。这三类冲突都可以采纳相应的一些手段予以解决,如由于标准跳转引起的跳转冲突可以采纳延迟跳转的方法来克制。4寻址方式多样TMS320C3X支持5类寻址方式,在这些类中又可采纳6种寻址类型。5类寻址方式是:通用寻址方式;三操作数寻址方式;并行寻址方式;长马上数寻址方式;条件跳转寻址方式。

59、6种寻址类型是:存放器寻址;干脆寻址;间接寻址;短马上数寻址;长马上数寻址;相对寻址。此外,TMS320C30还有两种数字信号处理中特别有用的寻址方式,一种是圆周寻址方式,主要用于卷积和相关等运算中存储器循环缓冲;另一种寻址方式是比特反转寻址,主要用于FFT运算。 TMS320C4XTMS320C4X系列浮点处理器是特地为实现并行处理和满意其他一些实时应用的需求而设计的。其主要性能包括275 MOPS的惊人速度和320Mbyte/s的吞吐量。.1 TMS320C40的主要特征(1) 具有6个用于处理器间高速通信的通信口。每个口的最大数据吞吐量可达20Mbyte/s的异步传输速率。处理器之间可干

60、脆对通,应用便利、敏捷;(2) 6个DMA通道实现了I/O操作与CPU操作的并行化。每个DMA通道都具备自初始化的实力,无需CPU来完成初始化的工作,从而最大限度地保证了CPU的性能,数据可以在处理器内存映像的随意范围内传递,具有高度的敏捷性;(3) CPU的处理实力达275 MOPS,数据吞吐量为320Mbyte/s。由于高度的并行化,TMS320C40 的CPU在每个周期内可以完成11次操作。指令周期的时间为40ns和50ns。40/32位的单周期浮点/整数乘法为大运算量的算法供应了高性能。单周期IEEE浮点格式转换为IEEE兼容的处理器供应了一个有效的界面。硬件支持除法和平方根倒数运算。

61、具有字节和半字长限制的实力,以实现快速数据压缩和解压。源代码与TMS320C3X兼容,可移植性好。支持线性、循环和比特反转的寻址方式。单周期跳转、调用和返回,以实现快速程序限制。031bit的单周期桶形循环左右移位;(4) 两条分开的外部数据、地址总线支持共享存储器系统和高速数据速率、单周期传输。端口数据传输速率高达100Mbyte/s。16G字连续的程序/数据/外设地址空间为系统设计带来最大的敏捷性。状态管脚标明存储器访问类型,以在共享存储器系统中实现快速、智能化的总线仲裁。分别的地址、数据和限制使能管脚可实现高速总线仲裁。4组存储器限制信号支持硬件上不同速率的存储器,运用者可以敏捷有效地利用各种高、低速率存储器;(5) 片内分析模块支持高效的并行处理调试。为程序、数据和DMA访问供应了分别的断点比拟器,为快速调试和开发供应了片内硬中断的实力。为硬件追踪设置了非连续栈,可便利快速地调

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!