《高级体系结构》PPT课件

上传人:san****019 文档编号:22828620 上传时间:2021-06-01 格式:PPT 页数:167 大小:4.63MB
收藏 版权申诉 举报 下载
《高级体系结构》PPT课件_第1页
第1页 / 共167页
《高级体系结构》PPT课件_第2页
第2页 / 共167页
《高级体系结构》PPT课件_第3页
第3页 / 共167页
资源描述:

《《高级体系结构》PPT课件》由会员分享,可在线阅读,更多相关《《高级体系结构》PPT课件(167页珍藏版)》请在装配图网上搜索。

1、1Advanced Computer ArchitectureThe School of Information Science and Engineering 高 性 能 计 算 机 体 系 结 构乔 百 友 ( 83681250)东 北 大 学 信 息 学 院 计 算 机 系 统 研 究 所 2Advanced Computer ArchitectureThe School of Information Science and Engineering 高 性 能 计 算 机 体 系 结 构参 考 教 材 Computer Architecture: A Quantitative Appro

2、ach, Hennessy and Patterson, 机 械 工 业 高 等 计 算 机 系 统 结 构 并 行 性 可 扩 展 性 可 编 程 性 清 华大 学 出 版 社 Parallel Computer Architecture -A Hardware/software Approach 机 械 工 业 计 算 机 系 统 结 构 张 晨 曦 等 , 高 等 教 育 出 版 社 , 2008 并 行 计 算 机 系 统 结 构 与 可 扩 展 计 算 , 古 志 民 、 孙 贤 和 清 华 大 学 出 版 社 2009 并 行 计 算 机 体 系 结 构 , 陈 国 良 等 著 ,

3、 高 等 教 育 出 版 社 ,2002 3Advanced Computer ArchitectureThe School of Information Science and Engineering 主 要 内 容 1.高 性 能 计 算 与 高 性 能 计 算 机 2.指 令 流 水 技 术 基 础 (复 习 ) 3.指 令 级 并 行 性 4.指 令 的 动 态 调 度 与 分 支 预 测 5.互 连 网 络 : 拓 扑 结 构 , 寻 径 技 术 , 6.并 行 处 理 基 础 : 模 型 , 性 能 , 自 动 并 行 化 7.共 享 存 储 器 多 处 理 机 : cache一

4、致 性 , 同 步 8.大 规 模 并 行 处 理 : 主 动 消 息 , 多 线 程 4Advanced Computer ArchitectureThe School of Information Science and Engineering4 高性能计算与高性能计算机 5Advanced Computer ArchitectureThe School of Information Science and Engineering国 家 高 性 能 计 算 中 心 ( 合 肥 ) 52021-4-21 1. 高 性 能 计 算 的 意 义 6Advanced Computer Archit

5、ectureThe School of Information Science and Engineering6 1. 高 性 能 计 算 的 意 义 ( 1) 7Advanced Computer ArchitectureThe School of Information Science and Engineering 1. 高 性 能 计 算 的 意 义 ( 2) 高 性 能 计 算HPC( High Performance Compute) 高 性 能 计 算 -并 行 计 算并 行 计 算 (Parallel Computing)高 端 计 算 (High-end Parallel C

6、omputing)高 性 能 计 算 (High Performance Computing)超 级 计 算 (Super Computing) 8Advanced Computer ArchitectureThe School of Information Science and Engineering8 1. 高 性 能 计 算 的 意 义 ( 3) 9Advanced Computer ArchitectureThe School of Information Science and EngineeringNortheastern University Sep. 6, 2012 Moss

7、oGoogle App EngineRails One SalesforceGmailGliffyJoyentAmazone Web SvcsNirvanixXcalibreAkamai PaaS SaaSIaaS Cloud Computing 云 计 算 是 并 行 计 算 (Parallel Computing)、 分 布 式 计 算(Distributed Computing)和 网格 计 算 (Grid Computing)的 发 展 ,或 者 说 是 这 些 计 算 机 科 学 概 念 的商 业 实 现云 计 算 是 虚 拟 化 (Virtualization)、效 用 计 算 (

8、Utility Computing)、IaaS(基 础 设 施 即 服 务 )、PaaS(平 台 即 服 务 )、 SaaS(软 件即 服 务 )等 概 念 混 合 演 进 并 跃 升 的结 果 10Advanced Computer ArchitectureThe School of Information Science and Engineering10 1. 高 性 能 计 算 的 意 义 ( 4) 11Advanced Computer ArchitectureThe School of Information Science and Engineering11 1. 高 性 能 计

9、 算 的 意 义 ( 5) 12Advanced Computer ArchitectureThe School of Information Science and Engineering12 1. 高 性 能 计 算 的 意 义 ( 6) 13Advanced Computer ArchitectureThe School of Information Science and Engineering 天 气 预 报1990年 10次 台 风 登 陆 , 福 建 、 浙 江 两 省 损 失79亿 元 , 死 亡 950余 人 。天 气 预 报 模 式 为 非 线 性 偏 微 分 方 程 ,

10、预 报 台风 暴 雨 过 程 , 计 算 量 为 10141016次 浮 点 运 算 ,需 要 10GFlops100GFlops的 巨 型 机 。用 途 : 局 部 灾 害 性 天 气 预 报 。 14Advanced Computer ArchitectureThe School of Information Science and Engineering 石 油 工 业地 震 勘 探 资 料 处 理油 藏 数 值 模 拟测 井 资 料 处 理地 震 勘 探 由 数 据 采 集 、 数 据 处 理 和 资 料 解 释 三 阶 段组 成 。目 前 采 用 的 三 维 地 震 勘 探 比 较

11、精 确 的 反 映 地 下 情 况 ,但 数 据 量 大 , 处 理 周 期 长 。100平 方 公 里 的 三 维 勘 探 面 积 , 道 距 25米 , 60次 覆盖 , 6秒 长 记 录 , 2毫 秒 采 样 , 一 共 采 集2.8810 10个 数 据 , 约 为 116GB。 15Advanced Computer ArchitectureThe School of Information Science and Engineering 叠 加 后 数 据 为 4.8108个 数 据 。 用 二 维 叠 加 深 度 偏移 方 法 精 确 的 产 生 地 下 深 度 图 像 , 需

12、要 进 行251012FLOP, 采 用 100MFLOPs机 器 计 算 250天 ,1GFLOPs机 计 算 25天 , 10GFLOPs机 器 35分 。 考 虑到 机 器 持 续 速 度 常 常 是 峰 值 速 度 的 10-30%, 所 以需 要 100GFlops的 机 器 。 Cray T932/32约 为60GFLOPs。 16Advanced Computer ArchitectureThe School of Information Science and Engineering 航 空 航 天研 究 三 维 翼 型 对 飞 机 性 能 的 影 响 。 数 值 模 拟 用时

13、 间 相 关 法 解 Navier-Stoker方 程 , 网 格 分 点为 1204050, 需 内 存 160MB, 6亿 计 算 机 上 解12小 时 , 如 果 在 数 分 钟 内 完 成 设 计 , 则 需 要 千亿 次 计 算 机 。 17Advanced Computer ArchitectureThe School of Information Science and Engineering 核 武 器核 爆 炸 数 值 模 拟 , 推 断 出 不 同 结 构 与 不 同 条 件 下核 装 置 的 能 量 释 放 效 应 。压 力 : 几 百 万 大 气 压温 度 : 几 千

14、万 摄 氏 度能 量 在 秒 级 内 释 放 出 来 。设 计 一 个 核 武 器 型 号 , 从 模 型 规 律 、 调 整 各 种 参数 到 优 选 , 需 计 算 成 百 上 千 次 核 试 验 。LosAlamos实 验 室 要 求 计 算 一 个 模 型 的 上 限 为8-10小 时 。 18Advanced Computer ArchitectureThe School of Information Science and Engineering 千 万 次 机 上 算 椭 球 程 序 的 计 算 模 型 需 要 40-60CPU小 时 。二 维 计 算 , 每 方 向 上 网 格

15、 点 数 取 100, 二 维 计算 是 一 维 的 200倍 , 三 维 是 一 维 的 33000倍 。 若每 维 设 1000网 格 点 , 则 三 维 计 算 是 一 维 的 几 十万 倍 之 多 。 此 时 对 主 存 储 器 容 量 要 数 十 、 数 百亿 字 单 元 ( 64位 ) 。另 外 还 有 I/O能 力 的 要 求 , 可 视 化 图 形 输 出 计 算 空 气 动 力 学 : 千 亿 次 /秒 ( 1011)图 像 处 理 : 百 亿 次 /秒 ( 10 10)AI: 万 亿 次 /秒 ( 1012) 19Advanced Computer Architecture

16、The School of Information Science and Engineering 20Advanced Computer ArchitectureThe School of Information Science and Engineering 21Advanced Computer ArchitectureThe School of Information Science and Engineering 22Advanced Computer ArchitectureThe School of Information Science and Engineering 23Ad

17、vanced Computer ArchitectureThe School of Information Science and Engineering23 1. 高 性 能 计 算 的 意 义 ( 7) 24Advanced Computer ArchitectureThe School of Information Science and Engineering24 1. 高 性 能 计 算 的 意 义 ( 8) 25Advanced Computer ArchitectureThe School of Information Science and Engineering25 1. 高

18、 性 能 计 算 的 意 义 ( 9) 26Advanced Computer ArchitectureThe School of Information Science and Engineering26 1. 高 性 能 计 算 的 意 义 ( 10) 27Advanced Computer ArchitectureThe School of Information Science and Engineering272021-4-21 1. 高 性 能 计 算 的 意 义 ( 11) 28Advanced Computer ArchitectureThe School of Informa

19、tion Science and Engineering28 1. 高 性 能 计 算 的 意 义 ( 12) 29Advanced Computer ArchitectureThe School of Information Science and Engineering29 1. 高 性 能 计 算 的 意 义 ( 13) 30Advanced Computer ArchitectureThe School of Information Science and Engineering30 1. 高 性 能 计 算 的 意 义 ( 14) 31Advanced Computer Archit

20、ectureThe School of Information Science and Engineering31 1. 高 性 能 计 算 的 意 义 ( 15) 32Advanced Computer ArchitectureThe School of Information Science and Engineering32 1. 高 性 能 计 算 的 意 义 ( 16) 33Advanced Computer ArchitectureThe School of Information Science and Engineering33 1. 高 性 能 计 算 的 意 义 ( 17)

21、 34Advanced Computer ArchitectureThe School of Information Science and Engineering 高 性 能 计 算 的 战 略 地 位 ( 中 国 ) 国 家 大 力 发 展 高 性 能 计 算 军 事 : 银 河 、 神 威 等 民 用 : 曙 光 、 联 想 等 高 性 能 计 算 已 应 用 到 国 民 经 济 的 多 个 行 业 石 油 、 气 象 、 军 事 、 科 研 等 国 产 高 性 能 计 算 机 曾 进 入 TOP500前 10位 , 总 数也 大 幅 增 加 安 装 的 计 算 机 总 数 在 增 长

22、( 28台 ) 35Advanced Computer ArchitectureThe School of Information Science and Engineering 我 国 超 级 计 算 机 发 展 年 谱型 号 面 世 时 间 每 秒 运 算 速 度 ( 峰 值 )银 河 1983年 1亿 次曙 光 一 号 1992年 6.4亿 次银 河 1994年 10亿 次银 河 1997年 130亿 次神 威 1999年 3840亿 次深 腾 1800 2002年 1万 亿 次曙 光 4000A 2004年 11万 亿 次神 威 3000A 2007年 18万 亿 次深 腾 7000

23、2008年 106.5万 亿 次曙 光 5000A 2008年 230万 亿 次 天 河 一 号 2009年 1206万 亿 次 36Advanced Computer ArchitectureThe School of Information Science and Engineering36 1. 高 性 能 计 算 的 意 义 ( 18) 37Advanced Computer ArchitectureThe School of Information Science and Engineering37 1. 高 性 能 计 算 的 意 义 ( 19) 38Advanced Comput

24、er ArchitectureThe School of Information Science and Engineering 230万 亿 次 的 浮 点 运 算6600枚 巴 塞 罗 那型 四 核 处 理 器 (主 频1.9GHz)。30720颗 计 算 核 心 ,122.88TB内 存 , 磁 盘 700TB采 用 低 延 迟 的 20Gb的 网络 互 联IBM“Roadrunner走 鹃 ”TOP500中 第 一 39Advanced Computer ArchitectureThe School of Information Science and Engineering 峰 值

25、速 度 和 实 测 速 度分 别 为 每 秒 1206.19万亿 次 和 563.1万 亿 次 CPU/GPU混 合 异 构系 统 6144个 通 用 处 理 器 ;5120个 加 速 处 理 器 内存 总 容 量 98TB通 信 带 宽 40Gbps共 享磁 盘 总 容 量 为 1PB 。共 享 磁 盘 总 容 量 为1PB Top500中 第 五 位 美 国 克 雷 公 司 “ 美 洲 虎 ” ( Jaguar) 第 一 , 1.76千 万 亿 次 , 中 国 “ 星 云 ” 第 二 40Advanced Computer ArchitectureThe School of Informa

26、tion Science and Engineering 41Advanced Computer ArchitectureThe School of Information Science and Engineering 高性能计算与高性能计算机 高 性 能 计 算 的 意 义 高 性 能 计 算 的 内 在 含 义 高 性 能 计 算 的 应 用 需 求 高 性 能 计 算 的 战 略 地 位 高 性 能 计 算 发 展 与 现 状 高 性 能 计 算 机 的 发 展 高 性 能 计 算 的 现 状 高 性 能 计 算 面 临 的 主 要 问题 功 耗 存 储 (memory wall) 编

27、 程 (programming wall) 高 性 能 计 算 的 未 来 Petaflops超 级 计 算 机 展 望 若 干 新 技 术 中 国 高 性 能 计 算 的 机 遇 和 挑 战 42Advanced Computer ArchitectureThe School of Information Science and Engineering 高性能计算机高 性 能 计 算 机由 多 个 计 算 单 元 组 成 , 运 算 速 度 快 、 存 储 容 量 大 、 可 靠 性 高的 计 算 机 系 统 。也 称 为 : 巨 型 计 算 机 、 超 级 计 算 机并 行 计 算 机由

28、多 个 处 理 单 元 组 成 的 计 算 机 系统 , 这 些 处 理 单 元 相 互 通 讯 和 协助 , 能 够 高 速 、 高 效 地 求 解 大 型复 杂 问 题 。 43Advanced Computer ArchitectureThe School of Information Science and Engineering 其发展历程可以简单的分为两个时代 专 用 时 代包 括 向 量 机 , MPP系 统 , SGI NUMA 系 统 , SUN大 型 SMP系 统 , 也 包 括 我 国 的 神 威 ,银 河 , 曙 光 1000等 。之 所 以 称 为 “ 专 用 ” ,

29、 并 不 是 说 它 们 只 能 运 行 某 种 应 用 , 是 指 它 们 的 组 成 部 件 是专 门 设 计 的 , 它 们 的 CPU板 , 内 存 板 , I/O板 , 操 作 系 统 , 甚 至 I/O系 统 , 都 是 不 能在 其 它 系 统 中 使 用 的 。 由 于 技 术 上 桌 面 系 统 与 高 端 系 统 的 巨 大 差 异 , 和 用 户 群 窄小 。 普 及 时 代高 性 能 计 算 机 价 格 下 降 , 应 用 门 槛 降 低 , 应 用 开 始 普 及 。 两 个 技 术 趋 势 起 到 重 要作 用 。商 品 化 趋 势 使 得 大 量 生 产 的 商

30、品 部 件 接 近 了 高 性 能 计 算 机 专 有 部 件 标 准 化 趋 势 使 得 这 些 部 件 之 间 能 够 集 成 一 个 系 统 中 , 其 中 X86处 理 器 、 以 太 网 、 内存 部 件 、 Linux都 起 到 决 定 性 作 用 。集 群 系 统 是 高 性 能 计 算 机 的 一 种 , 它 的 技 术 基 础 和 工 业 基 础 都 是 商 品 化 和 标 准 化 。 44Advanced Computer ArchitectureThe School of Information Science and Engineering 高性能计算机系统结构 并 行

31、 向 量 机 SMP DSM( NUMA) MPP, 节 点 可 以 是 单 处 理 器 的 节 点 , 也 可 以 是SMP, DSM Cluster Constellation 45Advanced Computer ArchitectureThe School of Information Science and Engineering 并行计算机系统类型 Flynn分 类 :SISD, SIMD, MIMD, MISD 结 构 模 型 :PVP, SMP, MPP, DSM, COW 访 存 模 型 :UMA, NUMA, COMA, CC-NUMA, NORMA 46Advanced

32、 Computer ArchitectureThe School of Information Science and Engineering 并行计算机分类Flynn分 类Flynn(1972)提 出 指 令 流 、 数 据 流 和 多 倍 性 概 念 , 把 不 同 的 计 算 机 分为 四 大 类 : SISD( Single-Instruction Single-Data) SIMD( Single-Instruction Multi-Data) MISD( Multi-Instruction Single-Data) MIMD( Multi-Instruction Multi-Dat

33、a)现 代 高 性 能 计 算 机 都 属 于 MIMD。 MIMD从 结 构 上和 访 存 方 式 上 , 又 可 以 分 为 : 结 构 模 型 : PVP, SMP, MPP, DSM, COW 访 存 模 型 : UMA, NUMA, COMA, CC-NUMA, NORMA 47Advanced Computer ArchitectureThe School of Information Science and Engineering 结构模型 48Advanced Computer ArchitectureThe School of Information Science and

34、Engineering 对称多处理机系统(SMP) SMP 对 称 式 共 享 存 储 :任 意 处 理 器可 直 接 访 问 任 意 内 存 地 址 ,且访 问 延 迟 、 带 宽 、 机 率 都 是 等价 的 ; 系 统 是 对 称 的 ; 微 处 理 器 : 一 般 少 于 64个 ; 处 理 器 不 能 太 多 , 总 线 和 交 叉开 关 的 一 旦 作 成 难 于 扩 展 ; 例 子 : IBM R50, SGI Power Challenge, SUN Enterprise, 曙 光 一 号 ; 49Advanced Computer ArchitectureThe School

35、 of Information Science and Engineering 分布式共享存储系统(DSM) DSM 分 布 共 享 存 储 : 内 存 模 块 物 理 上 局 部 于各 个 处 理 器 内 部 ,但 逻 辑 上 (用 户 )是 共享 存 储 的 ; 这 种 结 构 也 称 为 基 于 Cache目 录 的 非 一 致 内 存 访 问 (CC-NUMA)结 构 ;局 部 与 远 程 内 存 访 问 的 延 迟 和 带 宽 不 一致 ,3-10倍 高 性 能 并 行 程 序 设 计 注 意 ; 与 SMP的 主 要 区 别 : DSM在 物 理 上 有 分 布在 各 个 节 点

36、的 局 部 内 存 从 而 形 成 一 个 共享 的 存 储 器 ; 微 处 理 器 : 16-128个 ,几 百 到 千 亿 次 ; 代 表 : SGI Origin 2000, Cray T3D; 50Advanced Computer ArchitectureThe School of Information Science and Engineering 大规模并行计算机系统(MPP) MPP 物 理 和 逻 辑 上 均 是 分 布 内 存 能 扩 展 至 成 百 上 千 个 处 理 器(微 处 理 器 或 向 量 处 理 器 ) 采 用 高 通 信 带 宽 和 低 延 迟 的 互联

37、网 络 (专 门 设 计 和 定 制 的 ) 一 种 异 步 的 MIMD机 器 ; 程 序 系由 多 个 进 程 组 成 , 每 个 都 有 其私 有 地 址 空 间 , 进 程 间 采 用 传递 消 息 相 互 作 用 ; 代 表 :CRAY T3E(2048), ASCI Red(3072), IBM SP2, 曙 光 1000 51Advanced Computer ArchitectureThe School of Information Science and Engineering 集群系统(Cluster) Cluster 每 个 节 点 都 是 一 个 完 整 的 计 算机

38、各 个 节 点 通 过 高 性 能 网 络 相 互连 接 网 络 接 口 和 I/O总 线 松 耦 合 连接 每 个 节 点 有 完 整 的 操 作 系 统 曙 光 2000、 3000、 4000, ASCI Blue Mountain 52Advanced Computer ArchitectureThe School of Information Science and Engineering 访存模型UMA: NORMA:NUMA: 多 处 理 机 ( 单 地 址 空 间 共 享 存 储 器 ) UMA: Uniform Memory Access NUMA: Nonuniform M

39、emory Access多 计 算 机 ( 多 地 址 空 间 非 共 享 存 储 器 ) NORMA: No-Remote Memory Access 53Advanced Computer ArchitectureThe School of Information Science and Engineering 结构模型访存模型UMA: NUMA: NORMA: 54Advanced Computer ArchitectureThe School of Information Science and Engineering 多处理机 64-byte line size 10 clock c

40、ycles latency; Write Back update policy 138Advanced Computer ArchitectureThe School of Information Science and Engineering 139Advanced Computer ArchitectureThe School of Information Science and Engineering Intel Multi-core Plan 140Advanced Computer ArchitectureThe School of Information Science and E

41、ngineering Intel Multi-core Plan 141Advanced Computer ArchitectureThe School of Information Science and Engineering Intelstera-scalechip 142Advanced Computer ArchitectureThe School of Information Science and Engineering Cell from IBM and Sony 143Advanced Computer ArchitectureThe School of Informatio

42、n Science and Engineering Cell from IBM and Sony 144Advanced Computer ArchitectureThe School of Information Science and Engineering Intel 80核 芯 片 (2007) 80个 处 理 核 心 1 Teraflop 100亿 次 运 算 /瓦 特 主 频 3.1GHz 面 积 300mm, 各 CPU内 核 与 内 存 1对 1地 连 接 , 分 别 拥 有256MBps的 内 存 带 宽 32MB的 片 上 静 态 RAM 。 单 芯 片 整 体 的 内 存

43、 带 宽达 到 了 1TB/s 13.75mm * 22 mm 145Advanced Computer ArchitectureThe School of Information Science and Engineering IBM POWER7(2010) 146Advanced Computer ArchitectureThe School of Information Science and Engineering Niagara from SUN 147Advanced Computer ArchitectureThe School of Information Science a

44、nd EngineeringGPU TransformCPUApplication Rasterize Shade VideoMemory(Textures)Xformed, Lit Vertices (2D) Graphics State Render-to-tex tureAssemblePrimitivesVertices (3D) Screenspace triangles (2D) Fragments (pre-pixels) Final Pixels (Color, Depth)Programmable vertex processor! Programmable pixel pr

45、ocessor! FragmentProcessorGPUFundamentals:TheModernGraphicsPipelineVertexProcessor Geometryroces or 148Advanced Computer ArchitectureThe School of Information Science and Engineering GPUFundamentals:TheModernGraphicsPipeline 149Advanced Computer ArchitectureThe School of Information Science and Engi

46、neering 150Advanced Computer ArchitectureThe School of Information Science and Engineering 151Advanced Computer ArchitectureThe School of Information Science and Engineering 152Advanced Computer ArchitectureThe School of Information Science and Engineering For a specific program compiled to run on a

47、 specific machine “A”, the following parameters are provided: Thetotalinstructioncountoftheprogram. Theaveragenumberofcyclesperinstruction(averageCPI). Clockcycleofmachine“A” How can one measure the performance of this machine running this program? Intuitivelythemachineissaidtobefasterorhasbetterper

48、formancerunningthisprogramifthetotalexecutiontimeisshorter. Thustheinverseofthetotalmeasuredprogramexecutiontimeisapossibleperformancemeasureormetric: Performance A=1/ExecutionTimeAHowtocompareperformanceofdifferentmachines?Whatfactorsaffectperformance?Howtoimproveperformance? 153Advanced Computer A

49、rchitectureThe School of Information Science and Engineering A program is comprised of a number of instructions, I Measuredin: instructions/program The average instruction takes a number of cycles per instruction (CPI) to be completed. Measuredin:cycles/instruction IPC(InstructionsPerCycle)=1/CPI CP

50、U has a fixed clock cycle time C=1/clockrate Measuredin: seconds/cycle CPU execution time is the product of the above three parameters as follows: CPUTime=ICxCPIxCCCPUtime=Seconds =InstructionsxCyclesxSeconds Program ProgramInstructionCycle 154Advanced Computer ArchitectureThe School of Information

51、Science and Engineering CPUtime =Seconds =InstructionsxCyclesxSecondsProgram ProgramInstructionCycleCPIIPC Clock Cycle CInstruction Count IProgramCompilerOrganization(Micro-Architecture)TechnologyInstruction SetArchitecture (ISA) X X X X X X X X X 155Advanced Computer ArchitectureThe School of Infor

52、mation Science and Engineering CompilerProgrammingLanguageApplicationDatapathControlTransistors Wires PinsISAFunctionUnits Cyclespersecond(clockrate).Megabytespersecond.Executiontime:Targetworkload,SPEC95,SPEC2000,etc.Each metric has a purpose, and each can be misused.(millions)ofInstructionsperseco

53、ndMIPS(millions)of(F.P.)operationspersecondMFLOP/s 156Advanced Computer ArchitectureThe School of Information Science and Engineering The most popular and industry-standard set of CPU benchmarks. SPECmarks, 1989: 10programsyieldingasinglenumber(“SPECmarks”). SPEC92, 1992: SPECInt92(6integerprograms)

54、andSPECfp92(14floatingpointprograms). SPEC95, 1995: SPECint95 (8 integer programs): go, m88ksim, gcc, compress, li, ijpeg, perl, vortex SPECfp95 (10 floating-point intensive programs): tomcatv, swim, su2cor, hydro2d, mgrid, applu, turb3d, apsi, fppp, wave5 Performance relative to a Sun SuperSpark I

55、(50 MHz) which is given a score of SPECint95 = SPECfp95 = 1 SPEC CPU2000, 1999: CINT2000(11integerprograms).CFP2000(14floating-pointintensiveprograms) PerformancerelativetoaSunUltra5_10(300MHz)whichisgivenascoreofSPECint2000=SPECfp2000=100 157Advanced Computer ArchitectureThe School of Information S

56、cience and Engineering Top20SPECCPU2000Results(AsofMarch2002)# MHz Processor int peak int base MHz Processor fp peak fp base 1 1300 POWER4 814 790 1300 POWER4 1169 1098 2 2200 Pentium 4 811 790 1000 Alpha 21264C 960 776 3 2200 Pentium 4 Xeon 810 788 1050 UltraSPARC-III Cu 827 7014 1667 Athlon XP 724

57、 697 2200 Pentium 4 Xeon 802 7795 1000 Alpha 21264C 679 621 2200 Pentium 4 801 7796 1400 Pentium III 664 648 833 Alpha 21264B 784 6437 1050 UltraSPARC-III Cu 610 537 800 Itanium 701 7018 1533 Athlon MP 609 587 833 Alpha 21264A 644 5719 750 PA-RISC 8700 604 568 1667 Athlon XP 642 59610 833 Alpha 2126

58、4B 571 497 750 PA-RISC 8700 581 52611 1400 Athlon 554 495 1533 Athlon MP 547 50412 833 Alpha 21264A 533 511 600 MIPS R14000 529 49913 600 MIPS R14000 500 483 675 SPARC64 GP 509 37114 675 SPARC64 GP 478 449 900 UltraSPARC-III 482 42715 900 UltraSPARC-III 467 438 1400 Athlon 458 42616 552 PA-RISC 8600

59、 441 417 1400 Pentium III 456 43717 750 POWER RS64-IV 439 409 500 PA-RISC 8600 440 39718 700 Pentium III Xeon 438 431 450 POWER3-II 433 42619 800 Itanium 365 358 500 Alpha 21264 422 383 20 400 MIPS R12000 353 328 400 MIPS R12000 407 382Source: http:/ Top 20 SPECfp2000Top 20 SPECint2000 158Advanced C

60、omputer ArchitectureThe School of Information Science and Engineering Amdahls Law: The performance gain from improving some portion of a computer is calculated by: Speedup = Performance for entire task using the enhancement Performance for the entire task without using the enhancementor Speedup = Ex

61、ecution time without the enhancement Execution time for entire task using the enhancement 159Advanced Computer ArchitectureThe School of Information Science and Engineering The performance enhancement possible due to a given design improvement is limited by the amount that the improved feature is us

62、ed Amdahls Law:PerformanceimprovementorspeedupduetoenhancementE: Execution Time without E Performance with E Speedup(E) = - = - Execution Time with E Performance without E SupposethatenhancementEacceleratesafractionFoftheexecutiontimebyafactorSandtheremainderofthetimeisunaffectedthen: Execution Time

63、 with E = (1-F) + F/S) X Execution Time without E Hence speedup is given by: Execution Time without E 1Speedup(E) = - = - (1 - F) + F/S) X Execution Time without E (1 - F) + F/S 160Advanced Computer ArchitectureThe School of Information Science and Engineering Before:ExecutionTimewithoutenhancementE

64、:Unaffected, fraction: (1- F)After: ExecutionTimewithenhancementE:EnhancementEacceleratesfractionFofexecutiontimebyafactorofSAffected fraction: FUnaffected, fraction: (1- F) F/SUnchanged Execution Time without enhancement E 1Speedup(E) = - = - Execution Time with enhancement E (1 - F) + F/S 161Advan

65、ced Computer ArchitectureThe School of Information Science and Engineering For the RISC machine with the following instruction mix given earlier:Op Freq Cycles CPI(i) %TimeALU 50% 1 .5 23%Load 20% 5 1.0 45%Store 10% 3 .3 14%Branch 20% 2 .4 18% If a CPU design enhancement improves the CPI of load ins

66、tructions from 5 to 2, what is the resulting performance improvement from this enhancement:Fraction enhanced = F = 45% or .45Unaffected fraction = 100% - 45% = 55% or .55Factor of enhancement = 5/2 = 2.5Using Amdahls Law: 1 1Speedup(E) = - = - = 1.37 (1 - F) + F/S .55 + .45/2.5 CPI = 2.2 162Advanced Computer ArchitectureThe School of Information Science and Engineering Suppose that enhancement Ei accelerates a fraction Fi of the execution time by a factor Si and the remainder of the time is unaf

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!