1、1Advanced Computer ArchitectureThe School of Information Science and Engineering 高 性 能 计 算 机 体 系 结 构乔 百 友 ( 83681250)东 北 大 学 信 息 学 院 计 算 机 系 统 研 究 所 2Advanced Computer ArchitectureThe School of Information Science and Engineering 高 性 能 计 算 机 体 系 结 构参 考 教 材 Computer Architecture: A Quantitative Appro

2、ach, Hennessy and Patterson, 机 械 工 业 高 等 计 算 机 系 统 结 构 并 行 性 可 扩 展 性 可 编 程 性 清 华大 学 出 版 社 Parallel Computer Architecture -A Hardware/software Approach 机 械 工 业 计 算 机 系 统 结 构 张 晨 曦 等 , 高 等 教 育 出 版 社 , 2008 并 行 计 算 机 系 统 结 构 与 可 扩 展 计 算 , 古 志 民 、 孙 贤 和 清 华 大 学 出 版 社 2009 并 行 计 算 机 体 系 结 构 , 陈 国 良 等 著 ,

3、 高 等 教 育 出 版 社 ,2002 3Advanced Computer ArchitectureThe School of Information Science and Engineering 主 要 内 容 1.高 性 能 计 算 与 高 性 能 计 算 机 2.指 令 流 水 技 术 基 础 (复 习 ) 3.指 令 级 并 行 性 4.指 令 的 动 态 调 度 与 分 支 预 测 5.互 连 网 络 : 拓 扑 结 构 , 寻 径 技 术 , 6.并 行 处 理 基 础 : 模 型 , 性 能 , 自 动 并 行 化 7.共 享 存 储 器 多 处 理 机 : cache一

4、致 性 , 同 步 8.大 规 模 并 行 处 理 : 主 动 消 息 , 多 线 程 4Advanced Computer ArchitectureThe School of Information Science and Engineering4 高性能计算与高性能计算机 5Advanced Computer ArchitectureThe School of Information Science and Engineering国 家 高 性 能 计 算 中 心 ( 合 肥 ) 52021-4-21 1. 高 性 能 计 算 的 意 义 6Advanced Computer Archit

5、ectureThe School of Information Science and Engineering6 1. 高 性 能 计 算 的 意 义 ( 1) 7Advanced Computer ArchitectureThe School of Information Science and Engineering 1. 高 性 能 计 算 的 意 义 ( 2) 高 性 能 计 算HPC( High Performance Compute) 高 性 能 计 算 -并 行 计 算并 行 计 算 (Parallel Computing)高 端 计 算 (High-end Parallel C

6、omputing)高 性 能 计 算 (High Performance Computing)超 级 计 算 (Super Computing) 8Advanced Computer ArchitectureThe School of Information Science and Engineering8 1. 高 性 能 计 算 的 意 义 ( 3) 9Advanced Computer ArchitectureThe School of Information Science and EngineeringNortheastern University Sep. 6, 2012 Moss

7、oGoogle App EngineRails One SalesforceGmailGliffyJoyentAmazone Web SvcsNirvanixXcalibreAkamai PaaS SaaSIaaS Cloud Computing 云 计 算 是 并 行 计 算 (Parallel Computing)、 分 布 式 计 算(Distributed Computing)和 网格 计 算 (Grid Computing)的 发 展 ,或 者 说 是 这 些 计 算 机 科 学 概 念 的商 业 实 现云 计 算 是 虚 拟 化 (Virtualization)、效 用 计 算 (

8、Utility Computing)、IaaS(基 础 设 施 即 服 务 )、PaaS(平 台 即 服 务 )、 SaaS(软 件即 服 务 )等 概 念 混 合 演 进 并 跃 升 的结 果 10Advanced Computer ArchitectureThe School of Information Science and Engineering10 1. 高 性 能 计 算 的 意 义 ( 4) 11Advanced Computer ArchitectureThe School of Information Science and Engineering11 1. 高 性 能 计

9、 算 的 意 义 ( 5) 12Advanced Computer ArchitectureThe School of Information Science and Engineering12 1. 高 性 能 计 算 的 意 义 ( 6) 13Advanced Computer ArchitectureThe School of Information Science and Engineering 天 气 预 报1990年 10次 台 风 登 陆 , 福 建 、 浙 江 两 省 损 失79亿 元 , 死 亡 950余 人 。天 气 预 报 模 式 为 非 线 性 偏 微 分 方 程 ,

10、预 报 台风 暴 雨 过 程 , 计 算 量 为 10141016次 浮 点 运 算 ,需 要 10GFlops100GFlops的 巨 型 机 。用 途 : 局 部 灾 害 性 天 气 预 报 。 14Advanced Computer ArchitectureThe School of Information Science and Engineering 石 油 工 业地 震 勘 探 资 料 处 理油 藏 数 值 模 拟测 井 资 料 处 理地 震 勘 探 由 数 据 采 集 、 数 据 处 理 和 资 料 解 释 三 阶 段组 成 。目 前 采 用 的 三 维 地 震 勘 探 比 较

11、精 确 的 反 映 地 下 情 况 ,但 数 据 量 大 , 处 理 周 期 长 。100平 方 公 里 的 三 维 勘 探 面 积 , 道 距 25米 , 60次 覆盖 , 6秒 长 记 录 , 2毫 秒 采 样 , 一 共 采 集2.8810 10个 数 据 , 约 为 116GB。 15Advanced Computer ArchitectureThe School of Information Science and Engineering 叠 加 后 数 据 为 4.8108个 数 据 。 用 二 维 叠 加 深 度 偏移 方 法 精 确 的 产 生 地 下 深 度 图 像 , 需

12、要 进 行251012FLOP, 采 用 100MFLOPs机 器 计 算 250天 ,1GFLOPs机 计 算 25天 , 10GFLOPs机 器 35分 。 考 虑到 机 器 持 续 速 度 常 常 是 峰 值 速 度 的 10-30%, 所 以需 要 100GFlops的 机 器 。 Cray T932/32约 为60GFLOPs。 16Advanced Computer ArchitectureThe School of Information Science and Engineering 航 空 航 天研 究 三 维 翼 型 对 飞 机 性 能 的 影 响 。 数 值 模 拟 用时

13、 间 相 关 法 解 Navier-Stoker方 程 , 网 格 分 点为 1204050, 需 内 存 160MB, 6亿 计 算 机 上 解12小 时 , 如 果 在 数 分 钟 内 完 成 设 计 , 则 需 要 千亿 次 计 算 机 。 17Advanced Computer ArchitectureThe School of Information Science and Engineering 核 武 器核 爆 炸 数 值 模 拟 , 推 断 出 不 同 结 构 与 不 同 条 件 下核 装 置 的 能 量 释 放 效 应 。压 力 : 几 百 万 大 气 压温 度 : 几 千

14、万 摄 氏 度能 量 在 秒 级 内 释 放 出 来 。设 计 一 个 核 武 器 型 号 , 从 模 型 规 律 、 调 整 各 种 参数 到 优 选 , 需 计 算 成 百 上 千 次 核 试 验 。LosAlamos实 验 室 要 求 计 算 一 个 模 型 的 上 限 为8-10小 时 。 18Advanced Computer ArchitectureThe School of Information Science and Engineering 千 万 次 机 上 算 椭 球 程 序 的 计 算 模 型 需 要 40-60CPU小 时 。二 维 计 算 , 每 方 向 上 网 格

15、 点 数 取 100, 二 维 计算 是 一 维 的 200倍 , 三 维 是 一 维 的 33000倍 。 若每 维 设 1000网 格 点 , 则 三 维 计 算 是 一 维 的 几 十万 倍 之 多 。 此 时 对 主 存 储 器 容 量 要 数 十 、 数 百亿 字 单 元 ( 64位 ) 。另 外 还 有 I/O能 力 的 要 求 , 可 视 化 图 形 输 出 计 算 空 气 动 力 学 : 千 亿 次 /秒 ( 1011)图 像 处 理 : 百 亿 次 /秒 ( 10 10)AI: 万 亿 次 /秒 ( 1012) 19Advanced Computer Architecture

16、The School of Information Science and Engineering 20Advanced Computer ArchitectureThe School of Information Science and Engineering 21Advanced Computer ArchitectureThe School of Information Science and Engineering 22Advanced Computer ArchitectureThe School of Information Science and Engineering 23Ad

17、vanced Computer ArchitectureThe School of Information Science and Engineering23 1. 高 性 能 计 算 的 意 义 ( 7) 24Advanced Computer ArchitectureThe School of Information Science and Engineering24 1. 高 性 能 计 算 的 意 义 ( 8) 25Advanced Computer ArchitectureThe School of Information Science and Engineering25 1. 高

18、 性 能 计 算 的 意 义 ( 9) 26Advanced Computer ArchitectureThe School of Information Science and Engineering26 1. 高 性 能 计 算 的 意 义 ( 10) 27Advanced Computer ArchitectureThe School of Information Science and Engineering272021-4-21 1. 高 性 能 计 算 的 意 义 ( 11) 28Advanced Computer ArchitectureThe School of Informa

19、tion Science and Engineering28 1. 高 性 能 计 算 的 意 义 ( 12) 29Advanced Computer ArchitectureThe School of Information Science and Engineering29 1. 高 性 能 计 算 的 意 义 ( 13) 30Advanced Computer ArchitectureThe School of Information Science and Engineering30 1. 高 性 能 计 算 的 意 义 ( 14) 31Advanced Computer Archit

20、ectureThe School of Information Science and Engineering31 1. 高 性 能 计 算 的 意 义 ( 15) 32Advanced Computer ArchitectureThe School of Information Science and Engineering32 1. 高 性 能 计 算 的 意 义 ( 16) 33Advanced Computer ArchitectureThe School of Information Science and Engineering33 1. 高 性 能 计 算 的 意 义 ( 17)

21、 34Advanced Computer ArchitectureThe School of Information Science and Engineering 高 性 能 计 算 的 战 略 地 位 ( 中 国 ) 国 家 大 力 发 展 高 性 能 计 算 军 事 : 银 河 、 神 威 等 民 用 : 曙 光 、 联 想 等 高 性 能 计 算 已 应 用 到 国 民 经 济 的 多 个 行 业 石 油 、 气 象 、 军 事 、 科 研 等 国 产 高 性 能 计 算 机 曾 进 入 TOP500前 10位 , 总 数也 大 幅 增 加 安 装 的 计 算 机 总 数 在 增 长

22、( 28台 ) 35Advanced Computer ArchitectureThe School of Information Science and Engineering 我 国 超 级 计 算 机 发 展 年 谱型 号 面 世 时 间 每 秒 运 算 速 度 ( 峰 值 )银 河 1983年 1亿 次曙 光 一 号 1992年 6.4亿 次银 河 1994年 10亿 次银 河 1997年 130亿 次神 威 1999年 3840亿 次深 腾 1800 2002年 1万 亿 次曙 光 4000A 2004年 11万 亿 次神 威 3000A 2007年 18万 亿 次深 腾 7000

23、2008年 106.5万 亿 次曙 光 5000A 2008年 230万 亿 次 天 河 一 号 2009年 1206万 亿 次 36Advanced Computer ArchitectureThe School of Information Science and Engineering36 1. 高 性 能 计 算 的 意 义 ( 18) 37Advanced Computer ArchitectureThe School of Information Science and Engineering37 1. 高 性 能 计 算 的 意 义 ( 19) 38Advanced Comput

24、er ArchitectureThe School of Information Science and Engineering 230万 亿 次 的 浮 点 运 算6600枚 巴 塞 罗 那型 四 核 处 理 器 (主 频1.9GHz)。30720颗 计 算 核 心 ,122.88TB内 存 , 磁 盘 700TB采 用 低 延 迟 的 20Gb的 网络 互 联IBM“Roadrunner走 鹃 ”TOP500中 第 一 39Advanced Computer ArchitectureThe School of Information Science and Engineering 峰 值

25、速 度 和 实 测 速 度分 别 为 每 秒 1206.19万亿 次 和 563.1万 亿 次 CPU/GPU混 合 异 构系 统 6144个 通 用 处 理 器 ;5120个 加 速 处 理 器 内存 总 容 量 98TB通 信 带 宽 40Gbps共 享磁 盘 总 容 量 为 1PB 。共 享 磁 盘 总 容 量 为1PB Top500中 第 五 位 美 国 克 雷 公 司 “ 美 洲 虎 ” ( Jaguar) 第 一 , 1.76千 万 亿 次 , 中 国 “ 星 云 ” 第 二 40Advanced Computer ArchitectureThe School of Informa

26、tion Science and Engineering 41Advanced Computer ArchitectureThe School of Information Science and Engineering 高性能计算与高性能计算机 高 性 能 计 算 的 意 义 高 性 能 计 算 的 内 在 含 义 高 性 能 计 算 的 应 用 需 求 高 性 能 计 算 的 战 略 地 位 高 性 能 计 算 发 展 与 现 状 高 性 能 计 算 机 的 发 展 高 性 能 计 算 的 现 状 高 性 能 计 算 面 临 的 主 要 问题 功 耗 存 储 (memory wall) 编

27、 程 (programming wall) 高 性 能 计 算 的 未 来 Petaflops超 级 计 算 机 展 望 若 干 新 技 术 中 国 高 性 能 计 算 的 机 遇 和 挑 战 42Advanced Computer ArchitectureThe School of Information Science and Engineering 高性能计算机高 性 能 计 算 机由 多 个 计 算 单 元 组 成 , 运 算 速 度 快 、 存 储 容 量 大 、 可 靠 性 高的 计 算 机 系 统 。也 称 为 : 巨 型 计 算 机 、 超 级 计 算 机并 行 计 算 机由

28、多 个 处 理 单 元 组 成 的 计 算 机 系统 , 这 些 处 理 单 元 相 互 通 讯 和 协助 , 能 够 高 速 、 高 效 地 求 解 大 型复 杂 问 题 。 43Advanced Computer ArchitectureThe School of Information Science and Engineering 其发展历程可以简单的分为两个时代 专 用 时 代包 括 向 量 机 , MPP系 统 , SGI NUMA 系 统 , SUN大 型 SMP系 统 , 也 包 括 我 国 的 神 威 ,银 河 , 曙 光 1000等 。之 所 以 称 为 “ 专 用 ” ,

29、 并 不 是 说 它 们 只 能 运 行 某 种 应 用 , 是 指 它 们 的 组 成 部 件 是专 门 设 计 的 , 它 们 的 CPU板 , 内 存 板 , I/O板 , 操 作 系 统 , 甚 至 I/O系 统 , 都 是 不 能在 其 它 系 统 中 使 用 的 。 由 于 技 术 上 桌 面 系 统 与 高 端 系 统 的 巨 大 差 异 , 和 用 户 群 窄小 。 普 及 时 代高 性 能 计 算 机 价 格 下 降 , 应 用 门 槛 降 低 , 应 用 开 始 普 及 。 两 个 技 术 趋 势 起 到 重 要作 用 。商 品 化 趋 势 使 得 大 量 生 产 的 商

30、品 部 件 接 近 了 高 性 能 计 算 机 专 有 部 件 标 准 化 趋 势 使 得 这 些 部 件 之 间 能 够 集 成 一 个 系 统 中 , 其 中 X86处 理 器 、 以 太 网 、 内存 部 件 、 Linux都 起 到 决 定 性 作 用 。集 群 系 统 是 高 性 能 计 算 机 的 一 种 , 它 的 技 术 基 础 和 工 业 基 础 都 是 商 品 化 和 标 准 化 。 44Advanced Computer ArchitectureThe School of Information Science and Engineering 高性能计算机系统结构 并 行

31、 向 量 机 SMP DSM( NUMA) MPP, 节 点 可 以 是 单 处 理 器 的 节 点 , 也 可 以 是SMP, DSM Cluster Constellation 45Advanced Computer ArchitectureThe School of Information Science and Engineering 并行计算机系统类型 Flynn分 类 :SISD, SIMD, MIMD, MISD 结 构 模 型 :PVP, SMP, MPP, DSM, COW 访 存 模 型 :UMA, NUMA, COMA, CC-NUMA, NORMA 46Advanced

32、 Computer ArchitectureThe School of Information Science and Engineering 并行计算机分类Flynn分 类Flynn(1972)提 出 指 令 流 、 数 据 流 和 多 倍 性 概 念 , 把 不 同 的 计 算 机 分为 四 大 类 : SISD( Single-Instruction Single-Data) SIMD( Single-Instruction Multi-Data) MISD( Multi-Instruction Single-Data) MIMD( Multi-Instruction Multi-Dat

33、a)现 代 高 性 能 计 算 机 都 属 于 MIMD。 MIMD从 结 构 上和 访 存 方 式 上 , 又 可 以 分 为 : 结 构 模 型 : PVP, SMP, MPP, DSM, COW 访 存 模 型 : UMA, NUMA, COMA, CC-NUMA, NORMA 47Advanced Computer ArchitectureThe School of Information Science and Engineering 结构模型 48Advanced Computer ArchitectureThe School of Information Science and

34、Engineering 对称多处理机系统(SMP) SMP 对 称 式 共 享 存 储 :任 意 处 理 器可 直 接 访 问 任 意 内 存 地 址 ,且访 问 延 迟 、 带 宽 、 机 率 都 是 等价 的 ; 系 统 是 对 称 的 ; 微 处 理 器 : 一 般 少 于 64个 ; 处 理 器 不 能 太 多 , 总 线 和 交 叉开 关 的 一 旦 作 成 难 于 扩 展 ; 例 子 : IBM R50, SGI Power Challenge, SUN Enterprise, 曙 光 一 号 ; 49Advanced Computer ArchitectureThe School

35、 of Information Science and Engineering 分布式共享存储系统(DSM) DSM 分 布 共 享 存 储 : 内 存 模 块 物 理 上 局 部 于各 个 处 理 器 内 部 ,但 逻 辑 上 (用 户 )是 共享 存 储 的 ; 这 种 结 构 也 称 为 基 于 Cache目 录 的 非 一 致 内 存 访 问 (CC-NUMA)结 构 ;局 部 与 远 程 内 存 访 问 的 延 迟 和 带 宽 不 一致 ,3-10倍 高 性 能 并 行 程 序 设 计 注 意 ; 与 SMP的 主 要 区 别 : DSM在 物 理 上 有 分 布在 各 个 节 点

36、的 局 部 内 存 从 而 形 成 一 个 共享 的 存 储 器 ; 微 处 理 器 : 16-128个 ,几 百 到 千 亿 次 ; 代 表 : SGI Origin 2000, Cray T3D; 50Advanced Computer ArchitectureThe School of Information Science and Engineering 大规模并行计算机系统(MPP) MPP 物 理 和 逻 辑 上 均 是 分 布 内 存 能 扩 展 至 成 百 上 千 个 处 理 器(微 处 理 器 或 向 量 处 理 器 ) 采 用 高 通 信 带 宽 和 低 延 迟 的 互联

37、网 络 (专 门 设 计 和 定 制 的 ) 一 种 异 步 的 MIMD机 器 ; 程 序 系由 多 个 进 程 组 成 , 每 个 都 有 其私 有 地 址 空 间 , 进 程 间 采 用 传递 消 息 相 互 作 用 ; 代 表 :CRAY T3E(2048), ASCI Red(3072), IBM SP2, 曙 光 1000 51Advanced Computer ArchitectureThe School of Information Science and Engineering 集群系统(Cluster) Cluster 每 个 节 点 都 是 一 个 完 整 的 计 算机

38、各 个 节 点 通 过 高 性 能 网 络 相 互连 接 网 络 接 口 和 I/O总 线 松 耦 合 连接 每 个 节 点 有 完 整 的 操 作 系 统 曙 光 2000、 3000、 4000, ASCI Blue Mountain 52Advanced Computer ArchitectureThe School of Information Science and Engineering 访存模型UMA: NORMA:NUMA: 多 处 理 机 ( 单 地 址 空 间 共 享 存 储 器 ) UMA: Uniform Memory Access NUMA: Nonuniform M

39、emory Access多 计 算 机 ( 多 地 址 空 间 非 共 享 存 储 器 ) NORMA: No-Remote Memory Access 53Advanced Computer ArchitectureThe School of Information Science and Engineering 结构模型访存模型UMA: NUMA: NORMA: 54Advanced Computer ArchitectureThe School of Information Science and Engineering 多处理机 64-byte line size 10 clock c

40、ycles latency; Write Back update policy 138Advanced Computer ArchitectureThe School of Information Science and Engineering 139Advanced Computer ArchitectureThe School of Information Science and Engineering Intel Multi-core Plan 140Advanced Computer ArchitectureThe School of Information Science and E

41、ngineering Intel Multi-core Plan 141Advanced Computer ArchitectureThe School of Information Science and Engineering Intelstera-scalechip 142Advanced Computer ArchitectureThe School of Information Science and Engineering Cell from IBM and Sony 143Advanced Computer ArchitectureThe School of Informatio

42、n Science and Engineering Cell from IBM and Sony 144Advanced Computer ArchitectureThe School of Information Science and Engineering Intel 80核 芯 片 (2007) 80个 处 理 核 心 1 Teraflop 100亿 次 运 算 /瓦 特 主 频 3.1GHz 面 积 300mm, 各 CPU内 核 与 内 存 1对 1地 连 接 , 分 别 拥 有256MBps的 内 存 带 宽 32MB的 片 上 静 态 RAM 。 单 芯 片 整 体 的 内 存

43、 带 宽达 到 了 1TB/s 13.75mm * 22 mm 145Advanced Computer ArchitectureThe School of Information Science and Engineering IBM POWER7(2010) 146Advanced Computer ArchitectureThe School of Information Science and Engineering Niagara from SUN 147Advanced Computer ArchitectureThe School of Information Science a

44、nd EngineeringGPU TransformCPUApplication Rasterize Shade VideoMemory(Textures)Xformed, Lit Vertices (2D) Graphics State Render-to-tex tureAssemblePrimitivesVertices (3D) Screenspace triangles (2D) Fragments (pre-pixels) Final Pixels (Color, Depth)Programmable vertex processor! Programmable pixel pr

45、ocessor! FragmentProcessorGPUFundamentals:TheModernGraphicsPipelineVertexProcessor Geometryroces or 148Advanced Computer ArchitectureThe School of Information Science and Engineering GPUFundamentals:TheModernGraphicsPipeline 149Advanced Computer ArchitectureThe School of Information Science and Engi

46、neering 150Advanced Computer ArchitectureThe School of Information Science and Engineering 151Advanced Computer ArchitectureThe School of Information Science and Engineering 152Advanced Computer ArchitectureThe School of Information Science and Engineering For a specific program compiled to run on a

47、 specific machine “A”, the following parameters are provided: Thetotalinstructioncountoftheprogram. Theaveragenumberofcyclesperinstruction(averageCPI). Clockcycleofmachine“A” How can one measure the performance of this machine running this program? Intuitivelythemachineissaidtobefasterorhasbetterper

48、formancerunningthisprogramifthetotalexecutiontimeisshorter. Thustheinverseofthetotalmeasuredprogramexecutiontimeisapossibleperformancemeasureormetric: Performance A=1/ExecutionTimeAHowtocompareperformanceofdifferentmachines?Whatfactorsaffectperformance?Howtoimproveperformance? 153Advanced Computer A

49、rchitectureThe School of Information Science and Engineering A program is comprised of a number of instructions, I Measuredin: instructions/program The average instruction takes a number of cycles per instruction (CPI) to be completed. Measuredin:cycles/instruction IPC(InstructionsPerCycle)=1/CPI CP

50、U has a fixed clock cycle time C=1/clockrate Measuredin: seconds/cycle CPU execution time is the product of the above three parameters as follows: CPUTime=ICxCPIxCCCPUtime=Seconds =InstructionsxCyclesxSeconds Program ProgramInstructionCycle 154Advanced Computer ArchitectureThe School of Information

51、Science and Engineering CPUtime =Seconds =InstructionsxCyclesxSecondsProgram ProgramInstructionCycleCPIIPC Clock Cycle CInstruction Count IProgramCompilerOrganization(Micro-Architecture)TechnologyInstruction SetArchitecture (ISA) X X X X X X X X X 155Advanced Computer ArchitectureThe School of Infor

52、mation Science and Engineering CompilerProgrammingLanguageApplicationDatapathControlTransistors Wires PinsISAFunctionUnits Cyclespersecond(clockrate).Megabytespersecond.Executiontime:Targetworkload,SPEC95,SPEC2000,etc.Each metric has a purpose, and each can be misused.(millions)ofInstructionsperseco

53、ndMIPS(millions)of(F.P.)operationspersecondMFLOP/s 156Advanced Computer ArchitectureThe School of Information Science and Engineering The most popular and industry-standard set of CPU benchmarks. SPECmarks, 1989: 10programsyieldingasinglenumber(“SPECmarks”). SPEC92, 1992: SPECInt92(6integerprograms)

54、andSPECfp92(14floatingpointprograms). SPEC95, 1995: SPECint95 (8 integer programs): go, m88ksim, gcc, compress, li, ijpeg, perl, vortex SPECfp95 (10 floating-point intensive programs): tomcatv, swim, su2cor, hydro2d, mgrid, applu, turb3d, apsi, fppp, wave5 Performance relative to a Sun SuperSpark I

55、(50 MHz) which is given a score of SPECint95 = SPECfp95 = 1 SPEC CPU2000, 1999: CINT2000(11integerprograms).CFP2000(14floating-pointintensiveprograms) PerformancerelativetoaSunUltra5_10(300MHz)whichisgivenascoreofSPECint2000=SPECfp2000=100 157Advanced Computer ArchitectureThe School of Information S

56、cience and Engineering Top20SPECCPU2000Results(AsofMarch2002)# MHz Processor int peak int base MHz Processor fp peak fp base 1 1300 POWER4 814 790 1300 POWER4 1169 1098 2 2200 Pentium 4 811 790 1000 Alpha 21264C 960 776 3 2200 Pentium 4 Xeon 810 788 1050 UltraSPARC-III Cu 827 7014 1667 Athlon XP 724

57、 697 2200 Pentium 4 Xeon 802 7795 1000 Alpha 21264C 679 621 2200 Pentium 4 801 7796 1400 Pentium III 664 648 833 Alpha 21264B 784 6437 1050 UltraSPARC-III Cu 610 537 800 Itanium 701 7018 1533 Athlon MP 609 587 833 Alpha 21264A 644 5719 750 PA-RISC 8700 604 568 1667 Athlon XP 642 59610 833 Alpha 2126

58、4B 571 497 750 PA-RISC 8700 581 52611 1400 Athlon 554 495 1533 Athlon MP 547 50412 833 Alpha 21264A 533 511 600 MIPS R14000 529 49913 600 MIPS R14000 500 483 675 SPARC64 GP 509 37114 675 SPARC64 GP 478 449 900 UltraSPARC-III 482 42715 900 UltraSPARC-III 467 438 1400 Athlon 458 42616 552 PA-RISC 8600

59、 441 417 1400 Pentium III 456 43717 750 POWER RS64-IV 439 409 500 PA-RISC 8600 440 39718 700 Pentium III Xeon 438 431 450 POWER3-II 433 42619 800 Itanium 365 358 500 Alpha 21264 422 383 20 400 MIPS R12000 353 328 400 MIPS R12000 407 382Source: http:/ Top 20 SPECfp2000Top 20 SPECint2000 158Advanced C

60、omputer ArchitectureThe School of Information Science and Engineering Amdahls Law: The performance gain from improving some portion of a computer is calculated by: Speedup = Performance for entire task using the enhancement Performance for the entire task without using the enhancementor Speedup = Ex

61、ecution time without the enhancement Execution time for entire task using the enhancement 159Advanced Computer ArchitectureThe School of Information Science and Engineering The performance enhancement possible due to a given design improvement is limited by the amount that the improved feature is us

62、ed Amdahls Law:PerformanceimprovementorspeedupduetoenhancementE: Execution Time without E Performance with E Speedup(E) = - = - Execution Time with E Performance without E SupposethatenhancementEacceleratesafractionFoftheexecutiontimebyafactorSandtheremainderofthetimeisunaffectedthen: Execution Time

63、 with E = (1-F) + F/S) X Execution Time without E Hence speedup is given by: Execution Time without E 1Speedup(E) = - = - (1 - F) + F/S) X Execution Time without E (1 - F) + F/S 160Advanced Computer ArchitectureThe School of Information Science and Engineering Before:ExecutionTimewithoutenhancementE

64、:Unaffected, fraction: (1- F)After: ExecutionTimewithenhancementE:EnhancementEacceleratesfractionFofexecutiontimebyafactorofSAffected fraction: FUnaffected, fraction: (1- F) F/SUnchanged Execution Time without enhancement E 1Speedup(E) = - = - Execution Time with enhancement E (1 - F) + F/S 161Advan

65、ced Computer ArchitectureThe School of Information Science and Engineering For the RISC machine with the following instruction mix given earlier:Op Freq Cycles CPI(i) %TimeALU 50% 1 .5 23%Load 20% 5 1.0 45%Store 10% 3 .3 14%Branch 20% 2 .4 18% If a CPU design enhancement improves the CPI of load ins

66、tructions from 5 to 2, what is the resulting performance improvement from this enhancement:Fraction enhanced = F = 45% or .45Unaffected fraction = 100% - 45% = 55% or .55Factor of enhancement = 5/2 = 2.5Using Amdahls Law: 1 1Speedup(E) = - = - = 1.37 (1 - F) + F/S .55 + .45/2.5 CPI = 2.2 162Advanced Computer ArchitectureThe School of Information Science and Engineering Suppose that enhancement Ei accelerates a fraction Fi of the execution time by a factor Si and the remainder of the time is unaf

