《高级体系结构》PPT课件
《《高级体系结构》PPT课件》由会员分享,可在线阅读,更多相关《《高级体系结构》PPT课件(167页珍藏版)》请在装配图网上搜索。
1、1Advanced Computer ArchitectureThe School of Information Science and Engineering 高 性 能 计 算 机 体 系 结 构乔 百 友 ( 83681250)东 北 大 学 信 息 学 院 计 算 机 系 统 研 究 所 2Advanced Computer ArchitectureThe School of Information Science and Engineering 高 性 能 计 算 机 体 系 结 构参 考 教 材 Computer Architecture: A Quantitative Appro
2、ach, Hennessy and Patterson, 机 械 工 业 高 等 计 算 机 系 统 结 构 并 行 性 可 扩 展 性 可 编 程 性 清 华大 学 出 版 社 Parallel Computer Architecture -A Hardware/software Approach 机 械 工 业 计 算 机 系 统 结 构 张 晨 曦 等 , 高 等 教 育 出 版 社 , 2008 并 行 计 算 机 系 统 结 构 与 可 扩 展 计 算 , 古 志 民 、 孙 贤 和 清 华 大 学 出 版 社 2009 并 行 计 算 机 体 系 结 构 , 陈 国 良 等 著 ,
3、 高 等 教 育 出 版 社 ,2002 3Advanced Computer ArchitectureThe School of Information Science and Engineering 主 要 内 容 1.高 性 能 计 算 与 高 性 能 计 算 机 2.指 令 流 水 技 术 基 础 (复 习 ) 3.指 令 级 并 行 性 4.指 令 的 动 态 调 度 与 分 支 预 测 5.互 连 网 络 : 拓 扑 结 构 , 寻 径 技 术 , 6.并 行 处 理 基 础 : 模 型 , 性 能 , 自 动 并 行 化 7.共 享 存 储 器 多 处 理 机 : cache一
4、致 性 , 同 步 8.大 规 模 并 行 处 理 : 主 动 消 息 , 多 线 程 4Advanced Computer ArchitectureThe School of Information Science and Engineering4 高性能计算与高性能计算机 5Advanced Computer ArchitectureThe School of Information Science and Engineering国 家 高 性 能 计 算 中 心 ( 合 肥 ) 52021-4-21 1. 高 性 能 计 算 的 意 义 6Advanced Computer Archit
5、ectureThe School of Information Science and Engineering6 1. 高 性 能 计 算 的 意 义 ( 1) 7Advanced Computer ArchitectureThe School of Information Science and Engineering 1. 高 性 能 计 算 的 意 义 ( 2) 高 性 能 计 算HPC( High Performance Compute) 高 性 能 计 算 -并 行 计 算并 行 计 算 (Parallel Computing)高 端 计 算 (High-end Parallel C
6、omputing)高 性 能 计 算 (High Performance Computing)超 级 计 算 (Super Computing) 8Advanced Computer ArchitectureThe School of Information Science and Engineering8 1. 高 性 能 计 算 的 意 义 ( 3) 9Advanced Computer ArchitectureThe School of Information Science and EngineeringNortheastern University Sep. 6, 2012 Moss
7、oGoogle App EngineRails One SalesforceGmailGliffyJoyentAmazone Web SvcsNirvanixXcalibreAkamai PaaS SaaSIaaS Cloud Computing 云 计 算 是 并 行 计 算 (Parallel Computing)、 分 布 式 计 算(Distributed Computing)和 网格 计 算 (Grid Computing)的 发 展 ,或 者 说 是 这 些 计 算 机 科 学 概 念 的商 业 实 现云 计 算 是 虚 拟 化 (Virtualization)、效 用 计 算 (
8、Utility Computing)、IaaS(基 础 设 施 即 服 务 )、PaaS(平 台 即 服 务 )、 SaaS(软 件即 服 务 )等 概 念 混 合 演 进 并 跃 升 的结 果 10Advanced Computer ArchitectureThe School of Information Science and Engineering10 1. 高 性 能 计 算 的 意 义 ( 4) 11Advanced Computer ArchitectureThe School of Information Science and Engineering11 1. 高 性 能 计
9、 算 的 意 义 ( 5) 12Advanced Computer ArchitectureThe School of Information Science and Engineering12 1. 高 性 能 计 算 的 意 义 ( 6) 13Advanced Computer ArchitectureThe School of Information Science and Engineering 天 气 预 报1990年 10次 台 风 登 陆 , 福 建 、 浙 江 两 省 损 失79亿 元 , 死 亡 950余 人 。天 气 预 报 模 式 为 非 线 性 偏 微 分 方 程 ,
10、预 报 台风 暴 雨 过 程 , 计 算 量 为 10141016次 浮 点 运 算 ,需 要 10GFlops100GFlops的 巨 型 机 。用 途 : 局 部 灾 害 性 天 气 预 报 。 14Advanced Computer ArchitectureThe School of Information Science and Engineering 石 油 工 业地 震 勘 探 资 料 处 理油 藏 数 值 模 拟测 井 资 料 处 理地 震 勘 探 由 数 据 采 集 、 数 据 处 理 和 资 料 解 释 三 阶 段组 成 。目 前 采 用 的 三 维 地 震 勘 探 比 较
11、精 确 的 反 映 地 下 情 况 ,但 数 据 量 大 , 处 理 周 期 长 。100平 方 公 里 的 三 维 勘 探 面 积 , 道 距 25米 , 60次 覆盖 , 6秒 长 记 录 , 2毫 秒 采 样 , 一 共 采 集2.8810 10个 数 据 , 约 为 116GB。 15Advanced Computer ArchitectureThe School of Information Science and Engineering 叠 加 后 数 据 为 4.8108个 数 据 。 用 二 维 叠 加 深 度 偏移 方 法 精 确 的 产 生 地 下 深 度 图 像 , 需
12、要 进 行251012FLOP, 采 用 100MFLOPs机 器 计 算 250天 ,1GFLOPs机 计 算 25天 , 10GFLOPs机 器 35分 。 考 虑到 机 器 持 续 速 度 常 常 是 峰 值 速 度 的 10-30%, 所 以需 要 100GFlops的 机 器 。 Cray T932/32约 为60GFLOPs。 16Advanced Computer ArchitectureThe School of Information Science and Engineering 航 空 航 天研 究 三 维 翼 型 对 飞 机 性 能 的 影 响 。 数 值 模 拟 用时
13、 间 相 关 法 解 Navier-Stoker方 程 , 网 格 分 点为 1204050, 需 内 存 160MB, 6亿 计 算 机 上 解12小 时 , 如 果 在 数 分 钟 内 完 成 设 计 , 则 需 要 千亿 次 计 算 机 。 17Advanced Computer ArchitectureThe School of Information Science and Engineering 核 武 器核 爆 炸 数 值 模 拟 , 推 断 出 不 同 结 构 与 不 同 条 件 下核 装 置 的 能 量 释 放 效 应 。压 力 : 几 百 万 大 气 压温 度 : 几 千
14、万 摄 氏 度能 量 在 秒 级 内 释 放 出 来 。设 计 一 个 核 武 器 型 号 , 从 模 型 规 律 、 调 整 各 种 参数 到 优 选 , 需 计 算 成 百 上 千 次 核 试 验 。LosAlamos实 验 室 要 求 计 算 一 个 模 型 的 上 限 为8-10小 时 。 18Advanced Computer ArchitectureThe School of Information Science and Engineering 千 万 次 机 上 算 椭 球 程 序 的 计 算 模 型 需 要 40-60CPU小 时 。二 维 计 算 , 每 方 向 上 网 格
15、 点 数 取 100, 二 维 计算 是 一 维 的 200倍 , 三 维 是 一 维 的 33000倍 。 若每 维 设 1000网 格 点 , 则 三 维 计 算 是 一 维 的 几 十万 倍 之 多 。 此 时 对 主 存 储 器 容 量 要 数 十 、 数 百亿 字 单 元 ( 64位 ) 。另 外 还 有 I/O能 力 的 要 求 , 可 视 化 图 形 输 出 计 算 空 气 动 力 学 : 千 亿 次 /秒 ( 1011)图 像 处 理 : 百 亿 次 /秒 ( 10 10)AI: 万 亿 次 /秒 ( 1012) 19Advanced Computer Architecture
16、The School of Information Science and Engineering 20Advanced Computer ArchitectureThe School of Information Science and Engineering 21Advanced Computer ArchitectureThe School of Information Science and Engineering 22Advanced Computer ArchitectureThe School of Information Science and Engineering 23Ad
17、vanced Computer ArchitectureThe School of Information Science and Engineering23 1. 高 性 能 计 算 的 意 义 ( 7) 24Advanced Computer ArchitectureThe School of Information Science and Engineering24 1. 高 性 能 计 算 的 意 义 ( 8) 25Advanced Computer ArchitectureThe School of Information Science and Engineering25 1. 高
18、 性 能 计 算 的 意 义 ( 9) 26Advanced Computer ArchitectureThe School of Information Science and Engineering26 1. 高 性 能 计 算 的 意 义 ( 10) 27Advanced Computer ArchitectureThe School of Information Science and Engineering272021-4-21 1. 高 性 能 计 算 的 意 义 ( 11) 28Advanced Computer ArchitectureThe School of Informa
19、tion Science and Engineering28 1. 高 性 能 计 算 的 意 义 ( 12) 29Advanced Computer ArchitectureThe School of Information Science and Engineering29 1. 高 性 能 计 算 的 意 义 ( 13) 30Advanced Computer ArchitectureThe School of Information Science and Engineering30 1. 高 性 能 计 算 的 意 义 ( 14) 31Advanced Computer Archit
20、ectureThe School of Information Science and Engineering31 1. 高 性 能 计 算 的 意 义 ( 15) 32Advanced Computer ArchitectureThe School of Information Science and Engineering32 1. 高 性 能 计 算 的 意 义 ( 16) 33Advanced Computer ArchitectureThe School of Information Science and Engineering33 1. 高 性 能 计 算 的 意 义 ( 17)
21、 34Advanced Computer ArchitectureThe School of Information Science and Engineering 高 性 能 计 算 的 战 略 地 位 ( 中 国 ) 国 家 大 力 发 展 高 性 能 计 算 军 事 : 银 河 、 神 威 等 民 用 : 曙 光 、 联 想 等 高 性 能 计 算 已 应 用 到 国 民 经 济 的 多 个 行 业 石 油 、 气 象 、 军 事 、 科 研 等 国 产 高 性 能 计 算 机 曾 进 入 TOP500前 10位 , 总 数也 大 幅 增 加 安 装 的 计 算 机 总 数 在 增 长
22、( 28台 ) 35Advanced Computer ArchitectureThe School of Information Science and Engineering 我 国 超 级 计 算 机 发 展 年 谱型 号 面 世 时 间 每 秒 运 算 速 度 ( 峰 值 )银 河 1983年 1亿 次曙 光 一 号 1992年 6.4亿 次银 河 1994年 10亿 次银 河 1997年 130亿 次神 威 1999年 3840亿 次深 腾 1800 2002年 1万 亿 次曙 光 4000A 2004年 11万 亿 次神 威 3000A 2007年 18万 亿 次深 腾 7000
23、2008年 106.5万 亿 次曙 光 5000A 2008年 230万 亿 次 天 河 一 号 2009年 1206万 亿 次 36Advanced Computer ArchitectureThe School of Information Science and Engineering36 1. 高 性 能 计 算 的 意 义 ( 18) 37Advanced Computer ArchitectureThe School of Information Science and Engineering37 1. 高 性 能 计 算 的 意 义 ( 19) 38Advanced Comput
24、er ArchitectureThe School of Information Science and Engineering 230万 亿 次 的 浮 点 运 算6600枚 巴 塞 罗 那型 四 核 处 理 器 (主 频1.9GHz)。30720颗 计 算 核 心 ,122.88TB内 存 , 磁 盘 700TB采 用 低 延 迟 的 20Gb的 网络 互 联IBM“Roadrunner走 鹃 ”TOP500中 第 一 39Advanced Computer ArchitectureThe School of Information Science and Engineering 峰 值
25、速 度 和 实 测 速 度分 别 为 每 秒 1206.19万亿 次 和 563.1万 亿 次 CPU/GPU混 合 异 构系 统 6144个 通 用 处 理 器 ;5120个 加 速 处 理 器 内存 总 容 量 98TB通 信 带 宽 40Gbps共 享磁 盘 总 容 量 为 1PB 。共 享 磁 盘 总 容 量 为1PB Top500中 第 五 位 美 国 克 雷 公 司 “ 美 洲 虎 ” ( Jaguar) 第 一 , 1.76千 万 亿 次 , 中 国 “ 星 云 ” 第 二 40Advanced Computer ArchitectureThe School of Informa
26、tion Science and Engineering 41Advanced Computer ArchitectureThe School of Information Science and Engineering 高性能计算与高性能计算机 高 性 能 计 算 的 意 义 高 性 能 计 算 的 内 在 含 义 高 性 能 计 算 的 应 用 需 求 高 性 能 计 算 的 战 略 地 位 高 性 能 计 算 发 展 与 现 状 高 性 能 计 算 机 的 发 展 高 性 能 计 算 的 现 状 高 性 能 计 算 面 临 的 主 要 问题 功 耗 存 储 (memory wall) 编
27、 程 (programming wall) 高 性 能 计 算 的 未 来 Petaflops超 级 计 算 机 展 望 若 干 新 技 术 中 国 高 性 能 计 算 的 机 遇 和 挑 战 42Advanced Computer ArchitectureThe School of Information Science and Engineering 高性能计算机高 性 能 计 算 机由 多 个 计 算 单 元 组 成 , 运 算 速 度 快 、 存 储 容 量 大 、 可 靠 性 高的 计 算 机 系 统 。也 称 为 : 巨 型 计 算 机 、 超 级 计 算 机并 行 计 算 机由
28、多 个 处 理 单 元 组 成 的 计 算 机 系统 , 这 些 处 理 单 元 相 互 通 讯 和 协助 , 能 够 高 速 、 高 效 地 求 解 大 型复 杂 问 题 。 43Advanced Computer ArchitectureThe School of Information Science and Engineering 其发展历程可以简单的分为两个时代 专 用 时 代包 括 向 量 机 , MPP系 统 , SGI NUMA 系 统 , SUN大 型 SMP系 统 , 也 包 括 我 国 的 神 威 ,银 河 , 曙 光 1000等 。之 所 以 称 为 “ 专 用 ” ,
29、 并 不 是 说 它 们 只 能 运 行 某 种 应 用 , 是 指 它 们 的 组 成 部 件 是专 门 设 计 的 , 它 们 的 CPU板 , 内 存 板 , I/O板 , 操 作 系 统 , 甚 至 I/O系 统 , 都 是 不 能在 其 它 系 统 中 使 用 的 。 由 于 技 术 上 桌 面 系 统 与 高 端 系 统 的 巨 大 差 异 , 和 用 户 群 窄小 。 普 及 时 代高 性 能 计 算 机 价 格 下 降 , 应 用 门 槛 降 低 , 应 用 开 始 普 及 。 两 个 技 术 趋 势 起 到 重 要作 用 。商 品 化 趋 势 使 得 大 量 生 产 的 商
30、品 部 件 接 近 了 高 性 能 计 算 机 专 有 部 件 标 准 化 趋 势 使 得 这 些 部 件 之 间 能 够 集 成 一 个 系 统 中 , 其 中 X86处 理 器 、 以 太 网 、 内存 部 件 、 Linux都 起 到 决 定 性 作 用 。集 群 系 统 是 高 性 能 计 算 机 的 一 种 , 它 的 技 术 基 础 和 工 业 基 础 都 是 商 品 化 和 标 准 化 。 44Advanced Computer ArchitectureThe School of Information Science and Engineering 高性能计算机系统结构 并 行
31、 向 量 机 SMP DSM( NUMA) MPP, 节 点 可 以 是 单 处 理 器 的 节 点 , 也 可 以 是SMP, DSM Cluster Constellation 45Advanced Computer ArchitectureThe School of Information Science and Engineering 并行计算机系统类型 Flynn分 类 :SISD, SIMD, MIMD, MISD 结 构 模 型 :PVP, SMP, MPP, DSM, COW 访 存 模 型 :UMA, NUMA, COMA, CC-NUMA, NORMA 46Advanced
32、 Computer ArchitectureThe School of Information Science and Engineering 并行计算机分类Flynn分 类Flynn(1972)提 出 指 令 流 、 数 据 流 和 多 倍 性 概 念 , 把 不 同 的 计 算 机 分为 四 大 类 : SISD( Single-Instruction Single-Data) SIMD( Single-Instruction Multi-Data) MISD( Multi-Instruction Single-Data) MIMD( Multi-Instruction Multi-Dat
33、a)现 代 高 性 能 计 算 机 都 属 于 MIMD。 MIMD从 结 构 上和 访 存 方 式 上 , 又 可 以 分 为 : 结 构 模 型 : PVP, SMP, MPP, DSM, COW 访 存 模 型 : UMA, NUMA, COMA, CC-NUMA, NORMA 47Advanced Computer ArchitectureThe School of Information Science and Engineering 结构模型 48Advanced Computer ArchitectureThe School of Information Science and
34、Engineering 对称多处理机系统(SMP) SMP 对 称 式 共 享 存 储 :任 意 处 理 器可 直 接 访 问 任 意 内 存 地 址 ,且访 问 延 迟 、 带 宽 、 机 率 都 是 等价 的 ; 系 统 是 对 称 的 ; 微 处 理 器 : 一 般 少 于 64个 ; 处 理 器 不 能 太 多 , 总 线 和 交 叉开 关 的 一 旦 作 成 难 于 扩 展 ; 例 子 : IBM R50, SGI Power Challenge, SUN Enterprise, 曙 光 一 号 ; 49Advanced Computer ArchitectureThe School
35、 of Information Science and Engineering 分布式共享存储系统(DSM) DSM 分 布 共 享 存 储 : 内 存 模 块 物 理 上 局 部 于各 个 处 理 器 内 部 ,但 逻 辑 上 (用 户 )是 共享 存 储 的 ; 这 种 结 构 也 称 为 基 于 Cache目 录 的 非 一 致 内 存 访 问 (CC-NUMA)结 构 ;局 部 与 远 程 内 存 访 问 的 延 迟 和 带 宽 不 一致 ,3-10倍 高 性 能 并 行 程 序 设 计 注 意 ; 与 SMP的 主 要 区 别 : DSM在 物 理 上 有 分 布在 各 个 节 点
36、的 局 部 内 存 从 而 形 成 一 个 共享 的 存 储 器 ; 微 处 理 器 : 16-128个 ,几 百 到 千 亿 次 ; 代 表 : SGI Origin 2000, Cray T3D; 50Advanced Computer ArchitectureThe School of Information Science and Engineering 大规模并行计算机系统(MPP) MPP 物 理 和 逻 辑 上 均 是 分 布 内 存 能 扩 展 至 成 百 上 千 个 处 理 器(微 处 理 器 或 向 量 处 理 器 ) 采 用 高 通 信 带 宽 和 低 延 迟 的 互联
37、网 络 (专 门 设 计 和 定 制 的 ) 一 种 异 步 的 MIMD机 器 ; 程 序 系由 多 个 进 程 组 成 , 每 个 都 有 其私 有 地 址 空 间 , 进 程 间 采 用 传递 消 息 相 互 作 用 ; 代 表 :CRAY T3E(2048), ASCI Red(3072), IBM SP2, 曙 光 1000 51Advanced Computer ArchitectureThe School of Information Science and Engineering 集群系统(Cluster) Cluster 每 个 节 点 都 是 一 个 完 整 的 计 算机
38、各 个 节 点 通 过 高 性 能 网 络 相 互连 接 网 络 接 口 和 I/O总 线 松 耦 合 连接 每 个 节 点 有 完 整 的 操 作 系 统 曙 光 2000、 3000、 4000, ASCI Blue Mountain 52Advanced Computer ArchitectureThe School of Information Science and Engineering 访存模型UMA: NORMA:NUMA: 多 处 理 机 ( 单 地 址 空 间 共 享 存 储 器 ) UMA: Uniform Memory Access NUMA: Nonuniform M
39、emory Access多 计 算 机 ( 多 地 址 空 间 非 共 享 存 储 器 ) NORMA: No-Remote Memory Access 53Advanced Computer ArchitectureThe School of Information Science and Engineering 结构模型访存模型UMA: NUMA: NORMA: 54Advanced Computer ArchitectureThe School of Information Science and Engineering 多处理机 64-byte line size 10 clock c
40、ycles latency; Write Back update policy 138Advanced Computer ArchitectureThe School of Information Science and Engineering 139Advanced Computer ArchitectureThe School of Information Science and Engineering Intel Multi-core Plan 140Advanced Computer ArchitectureThe School of Information Science and E
41、ngineering Intel Multi-core Plan 141Advanced Computer ArchitectureThe School of Information Science and Engineering Intelstera-scalechip 142Advanced Computer ArchitectureThe School of Information Science and Engineering Cell from IBM and Sony 143Advanced Computer ArchitectureThe School of Informatio
42、n Science and Engineering Cell from IBM and Sony 144Advanced Computer ArchitectureThe School of Information Science and Engineering Intel 80核 芯 片 (2007) 80个 处 理 核 心 1 Teraflop 100亿 次 运 算 /瓦 特 主 频 3.1GHz 面 积 300mm, 各 CPU内 核 与 内 存 1对 1地 连 接 , 分 别 拥 有256MBps的 内 存 带 宽 32MB的 片 上 静 态 RAM 。 单 芯 片 整 体 的 内 存
43、 带 宽达 到 了 1TB/s 13.75mm * 22 mm 145Advanced Computer ArchitectureThe School of Information Science and Engineering IBM POWER7(2010) 146Advanced Computer ArchitectureThe School of Information Science and Engineering Niagara from SUN 147Advanced Computer ArchitectureThe School of Information Science a
44、nd EngineeringGPU TransformCPUApplication Rasterize Shade VideoMemory(Textures)Xformed, Lit Vertices (2D) Graphics State Render-to-tex tureAssemblePrimitivesVertices (3D) Screenspace triangles (2D) Fragments (pre-pixels) Final Pixels (Color, Depth)Programmable vertex processor! Programmable pixel pr
45、ocessor! FragmentProcessorGPUFundamentals:TheModernGraphicsPipelineVertexProcessor Geometryroces or 148Advanced Computer ArchitectureThe School of Information Science and Engineering GPUFundamentals:TheModernGraphicsPipeline 149Advanced Computer ArchitectureThe School of Information Science and Engi
46、neering 150Advanced Computer ArchitectureThe School of Information Science and Engineering 151Advanced Computer ArchitectureThe School of Information Science and Engineering 152Advanced Computer ArchitectureThe School of Information Science and Engineering For a specific program compiled to run on a
47、 specific machine “A”, the following parameters are provided: Thetotalinstructioncountoftheprogram. Theaveragenumberofcyclesperinstruction(averageCPI). Clockcycleofmachine“A” How can one measure the performance of this machine running this program? Intuitivelythemachineissaidtobefasterorhasbetterper
48、formancerunningthisprogramifthetotalexecutiontimeisshorter. Thustheinverseofthetotalmeasuredprogramexecutiontimeisapossibleperformancemeasureormetric: Performance A=1/ExecutionTimeAHowtocompareperformanceofdifferentmachines?Whatfactorsaffectperformance?Howtoimproveperformance? 153Advanced Computer A
49、rchitectureThe School of Information Science and Engineering A program is comprised of a number of instructions, I Measuredin: instructions/program The average instruction takes a number of cycles per instruction (CPI) to be completed. Measuredin:cycles/instruction IPC(InstructionsPerCycle)=1/CPI CP
50、U has a fixed clock cycle time C=1/clockrate Measuredin: seconds/cycle CPU execution time is the product of the above three parameters as follows: CPUTime=ICxCPIxCCCPUtime=Seconds =InstructionsxCyclesxSeconds Program ProgramInstructionCycle 154Advanced Computer ArchitectureThe School of Information
51、Science and Engineering CPUtime =Seconds =InstructionsxCyclesxSecondsProgram ProgramInstructionCycleCPIIPC Clock Cycle CInstruction Count IProgramCompilerOrganization(Micro-Architecture)TechnologyInstruction SetArchitecture (ISA) X X X X X X X X X 155Advanced Computer ArchitectureThe School of Infor
52、mation Science and Engineering CompilerProgrammingLanguageApplicationDatapathControlTransistors Wires PinsISAFunctionUnits Cyclespersecond(clockrate).Megabytespersecond.Executiontime:Targetworkload,SPEC95,SPEC2000,etc.Each metric has a purpose, and each can be misused.(millions)ofInstructionsperseco
53、ndMIPS(millions)of(F.P.)operationspersecondMFLOP/s 156Advanced Computer ArchitectureThe School of Information Science and Engineering The most popular and industry-standard set of CPU benchmarks. SPECmarks, 1989: 10programsyieldingasinglenumber(“SPECmarks”). SPEC92, 1992: SPECInt92(6integerprograms)
54、andSPECfp92(14floatingpointprograms). SPEC95, 1995: SPECint95 (8 integer programs): go, m88ksim, gcc, compress, li, ijpeg, perl, vortex SPECfp95 (10 floating-point intensive programs): tomcatv, swim, su2cor, hydro2d, mgrid, applu, turb3d, apsi, fppp, wave5 Performance relative to a Sun SuperSpark I
55、(50 MHz) which is given a score of SPECint95 = SPECfp95 = 1 SPEC CPU2000, 1999: CINT2000(11integerprograms).CFP2000(14floating-pointintensiveprograms) PerformancerelativetoaSunUltra5_10(300MHz)whichisgivenascoreofSPECint2000=SPECfp2000=100 157Advanced Computer ArchitectureThe School of Information S
56、cience and Engineering Top20SPECCPU2000Results(AsofMarch2002)# MHz Processor int peak int base MHz Processor fp peak fp base 1 1300 POWER4 814 790 1300 POWER4 1169 1098 2 2200 Pentium 4 811 790 1000 Alpha 21264C 960 776 3 2200 Pentium 4 Xeon 810 788 1050 UltraSPARC-III Cu 827 7014 1667 Athlon XP 724
57、 697 2200 Pentium 4 Xeon 802 7795 1000 Alpha 21264C 679 621 2200 Pentium 4 801 7796 1400 Pentium III 664 648 833 Alpha 21264B 784 6437 1050 UltraSPARC-III Cu 610 537 800 Itanium 701 7018 1533 Athlon MP 609 587 833 Alpha 21264A 644 5719 750 PA-RISC 8700 604 568 1667 Athlon XP 642 59610 833 Alpha 2126
58、4B 571 497 750 PA-RISC 8700 581 52611 1400 Athlon 554 495 1533 Athlon MP 547 50412 833 Alpha 21264A 533 511 600 MIPS R14000 529 49913 600 MIPS R14000 500 483 675 SPARC64 GP 509 37114 675 SPARC64 GP 478 449 900 UltraSPARC-III 482 42715 900 UltraSPARC-III 467 438 1400 Athlon 458 42616 552 PA-RISC 8600
59、 441 417 1400 Pentium III 456 43717 750 POWER RS64-IV 439 409 500 PA-RISC 8600 440 39718 700 Pentium III Xeon 438 431 450 POWER3-II 433 42619 800 Itanium 365 358 500 Alpha 21264 422 383 20 400 MIPS R12000 353 328 400 MIPS R12000 407 382Source: http:/ Top 20 SPECfp2000Top 20 SPECint2000 158Advanced C
60、omputer ArchitectureThe School of Information Science and Engineering Amdahls Law: The performance gain from improving some portion of a computer is calculated by: Speedup = Performance for entire task using the enhancement Performance for the entire task without using the enhancementor Speedup = Ex
61、ecution time without the enhancement Execution time for entire task using the enhancement 159Advanced Computer ArchitectureThe School of Information Science and Engineering The performance enhancement possible due to a given design improvement is limited by the amount that the improved feature is us
62、ed Amdahls Law:PerformanceimprovementorspeedupduetoenhancementE: Execution Time without E Performance with E Speedup(E) = - = - Execution Time with E Performance without E SupposethatenhancementEacceleratesafractionFoftheexecutiontimebyafactorSandtheremainderofthetimeisunaffectedthen: Execution Time
63、 with E = (1-F) + F/S) X Execution Time without E Hence speedup is given by: Execution Time without E 1Speedup(E) = - = - (1 - F) + F/S) X Execution Time without E (1 - F) + F/S 160Advanced Computer ArchitectureThe School of Information Science and Engineering Before:ExecutionTimewithoutenhancementE
64、:Unaffected, fraction: (1- F)After: ExecutionTimewithenhancementE:EnhancementEacceleratesfractionFofexecutiontimebyafactorofSAffected fraction: FUnaffected, fraction: (1- F) F/SUnchanged Execution Time without enhancement E 1Speedup(E) = - = - Execution Time with enhancement E (1 - F) + F/S 161Advan
65、ced Computer ArchitectureThe School of Information Science and Engineering For the RISC machine with the following instruction mix given earlier:Op Freq Cycles CPI(i) %TimeALU 50% 1 .5 23%Load 20% 5 1.0 45%Store 10% 3 .3 14%Branch 20% 2 .4 18% If a CPU design enhancement improves the CPI of load ins
66、tructions from 5 to 2, what is the resulting performance improvement from this enhancement:Fraction enhanced = F = 45% or .45Unaffected fraction = 100% - 45% = 55% or .55Factor of enhancement = 5/2 = 2.5Using Amdahls Law: 1 1Speedup(E) = - = - = 1.37 (1 - F) + F/S .55 + .45/2.5 CPI = 2.2 162Advanced Computer ArchitectureThe School of Information Science and Engineering Suppose that enhancement Ei accelerates a fraction Fi of the execution time by a factor Si and the remainder of the time is unaf
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。