欢迎来到装配图网! | 帮助中心 装配图网zhuangpeitu.com!
装配图网
ImageVerifierCode 换一换
首页 装配图网 > 资源分类 > PPT文档下载
 

《高级体系结构》PPT课件

  • 资源ID:22828620       资源大小:4.63MB        全文页数:167页
  • 资源格式: PPT        下载积分:14.9积分
快捷下载 游客一键下载
会员登录下载
微信登录下载
三方登录下载: 微信开放平台登录 支付宝登录   QQ登录   微博登录  
二维码
微信扫一扫登录
下载资源需要14.9积分
邮箱/手机:
温馨提示:
用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
支付方式: 支付宝    微信支付   
验证码:   换一换

 
账号:
密码:
验证码:   换一换
  忘记密码?
    
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

《高级体系结构》PPT课件

1Advanced Computer ArchitectureThe School of Information Science and Engineering 高 性 能 计 算 机 体 系 结 构乔 百 友 ( 83681250)东 北 大 学 信 息 学 院 计 算 机 系 统 研 究 所 2Advanced Computer ArchitectureThe School of Information Science and Engineering 高 性 能 计 算 机 体 系 结 构参 考 教 材 Computer Architecture: A Quantitative Approach, Hennessy and Patterson, 机 械 工 业 高 等 计 算 机 系 统 结 构 并 行 性 可 扩 展 性 可 编 程 性 清 华大 学 出 版 社 Parallel Computer Architecture -A Hardware/software Approach 机 械 工 业 计 算 机 系 统 结 构 张 晨 曦 等 , 高 等 教 育 出 版 社 , 2008 并 行 计 算 机 系 统 结 构 与 可 扩 展 计 算 , 古 志 民 、 孙 贤 和 清 华 大 学 出 版 社 2009 并 行 计 算 机 体 系 结 构 , 陈 国 良 等 著 , 高 等 教 育 出 版 社 ,2002 3Advanced Computer ArchitectureThe School of Information Science and Engineering 主 要 内 容 1.高 性 能 计 算 与 高 性 能 计 算 机 2.指 令 流 水 技 术 基 础 (复 习 ) 3.指 令 级 并 行 性 4.指 令 的 动 态 调 度 与 分 支 预 测 5.互 连 网 络 : 拓 扑 结 构 , 寻 径 技 术 , 6.并 行 处 理 基 础 : 模 型 , 性 能 , 自 动 并 行 化 7.共 享 存 储 器 多 处 理 机 : cache一 致 性 , 同 步 8.大 规 模 并 行 处 理 : 主 动 消 息 , 多 线 程 4Advanced Computer ArchitectureThe School of Information Science and Engineering4 高性能计算与高性能计算机 5Advanced Computer ArchitectureThe School of Information Science and Engineering国 家 高 性 能 计 算 中 心 ( 合 肥 ) 52021-4-21 1. 高 性 能 计 算 的 意 义 6Advanced Computer ArchitectureThe School of Information Science and Engineering6 1. 高 性 能 计 算 的 意 义 ( 1) 7Advanced Computer ArchitectureThe School of Information Science and Engineering 1. 高 性 能 计 算 的 意 义 ( 2) 高 性 能 计 算HPC( High Performance Compute) 高 性 能 计 算 -并 行 计 算并 行 计 算 (Parallel Computing)高 端 计 算 (High-end Parallel Computing)高 性 能 计 算 (High Performance Computing)超 级 计 算 (Super Computing) 8Advanced Computer ArchitectureThe School of Information Science and Engineering8 1. 高 性 能 计 算 的 意 义 ( 3) 9Advanced Computer ArchitectureThe School of Information Science and EngineeringNortheastern University Sep. 6, 2012 MossoGoogle App EngineRails One SalesforceGmailGliffyJoyentAmazone Web SvcsNirvanixXcalibreAkamai PaaS SaaSIaaS Cloud Computing 云 计 算 是 并 行 计 算 (Parallel Computing)、 分 布 式 计 算(Distributed Computing)和 网格 计 算 (Grid Computing)的 发 展 ,或 者 说 是 这 些 计 算 机 科 学 概 念 的商 业 实 现云 计 算 是 虚 拟 化 (Virtualization)、效 用 计 算 (Utility Computing)、IaaS(基 础 设 施 即 服 务 )、PaaS(平 台 即 服 务 )、 SaaS(软 件即 服 务 )等 概 念 混 合 演 进 并 跃 升 的结 果 10Advanced Computer ArchitectureThe School of Information Science and Engineering10 1. 高 性 能 计 算 的 意 义 ( 4) 11Advanced Computer ArchitectureThe School of Information Science and Engineering11 1. 高 性 能 计 算 的 意 义 ( 5) 12Advanced Computer ArchitectureThe School of Information Science and Engineering12 1. 高 性 能 计 算 的 意 义 ( 6) 13Advanced Computer ArchitectureThe School of Information Science and Engineering 天 气 预 报1990年 10次 台 风 登 陆 , 福 建 、 浙 江 两 省 损 失79亿 元 , 死 亡 950余 人 。天 气 预 报 模 式 为 非 线 性 偏 微 分 方 程 , 预 报 台风 暴 雨 过 程 , 计 算 量 为 10141016次 浮 点 运 算 ,需 要 10GFlops100GFlops的 巨 型 机 。用 途 : 局 部 灾 害 性 天 气 预 报 。 14Advanced Computer ArchitectureThe School of Information Science and Engineering 石 油 工 业地 震 勘 探 资 料 处 理油 藏 数 值 模 拟测 井 资 料 处 理地 震 勘 探 由 数 据 采 集 、 数 据 处 理 和 资 料 解 释 三 阶 段组 成 。目 前 采 用 的 三 维 地 震 勘 探 比 较 精 确 的 反 映 地 下 情 况 ,但 数 据 量 大 , 处 理 周 期 长 。100平 方 公 里 的 三 维 勘 探 面 积 , 道 距 25米 , 60次 覆盖 , 6秒 长 记 录 , 2毫 秒 采 样 , 一 共 采 集2.8810 10个 数 据 , 约 为 116GB。 15Advanced Computer ArchitectureThe School of Information Science and Engineering 叠 加 后 数 据 为 4.8108个 数 据 。 用 二 维 叠 加 深 度 偏移 方 法 精 确 的 产 生 地 下 深 度 图 像 , 需 要 进 行251012FLOP, 采 用 100MFLOPs机 器 计 算 250天 ,1GFLOPs机 计 算 25天 , 10GFLOPs机 器 35分 。 考 虑到 机 器 持 续 速 度 常 常 是 峰 值 速 度 的 10-30%, 所 以需 要 100GFlops的 机 器 。 Cray T932/32约 为60GFLOPs。 16Advanced Computer ArchitectureThe School of Information Science and Engineering 航 空 航 天研 究 三 维 翼 型 对 飞 机 性 能 的 影 响 。 数 值 模 拟 用时 间 相 关 法 解 Navier-Stoker方 程 , 网 格 分 点为 1204050, 需 内 存 160MB, 6亿 计 算 机 上 解12小 时 , 如 果 在 数 分 钟 内 完 成 设 计 , 则 需 要 千亿 次 计 算 机 。 17Advanced Computer ArchitectureThe School of Information Science and Engineering 核 武 器核 爆 炸 数 值 模 拟 , 推 断 出 不 同 结 构 与 不 同 条 件 下核 装 置 的 能 量 释 放 效 应 。压 力 : 几 百 万 大 气 压温 度 : 几 千 万 摄 氏 度能 量 在 秒 级 内 释 放 出 来 。设 计 一 个 核 武 器 型 号 , 从 模 型 规 律 、 调 整 各 种 参数 到 优 选 , 需 计 算 成 百 上 千 次 核 试 验 。LosAlamos实 验 室 要 求 计 算 一 个 模 型 的 上 限 为8-10小 时 。 18Advanced Computer ArchitectureThe School of Information Science and Engineering 千 万 次 机 上 算 椭 球 程 序 的 计 算 模 型 需 要 40-60CPU小 时 。二 维 计 算 , 每 方 向 上 网 格 点 数 取 100, 二 维 计算 是 一 维 的 200倍 , 三 维 是 一 维 的 33000倍 。 若每 维 设 1000网 格 点 , 则 三 维 计 算 是 一 维 的 几 十万 倍 之 多 。 此 时 对 主 存 储 器 容 量 要 数 十 、 数 百亿 字 单 元 ( 64位 ) 。另 外 还 有 I/O能 力 的 要 求 , 可 视 化 图 形 输 出 计 算 空 气 动 力 学 : 千 亿 次 /秒 ( 1011)图 像 处 理 : 百 亿 次 /秒 ( 10 10)AI: 万 亿 次 /秒 ( 1012) 19Advanced Computer ArchitectureThe School of Information Science and Engineering 20Advanced Computer ArchitectureThe School of Information Science and Engineering 21Advanced Computer ArchitectureThe School of Information Science and Engineering 22Advanced Computer ArchitectureThe School of Information Science and Engineering 23Advanced Computer ArchitectureThe School of Information Science and Engineering23 1. 高 性 能 计 算 的 意 义 ( 7) 24Advanced Computer ArchitectureThe School of Information Science and Engineering24 1. 高 性 能 计 算 的 意 义 ( 8) 25Advanced Computer ArchitectureThe School of Information Science and Engineering25 1. 高 性 能 计 算 的 意 义 ( 9) 26Advanced Computer ArchitectureThe School of Information Science and Engineering26 1. 高 性 能 计 算 的 意 义 ( 10) 27Advanced Computer ArchitectureThe School of Information Science and Engineering272021-4-21 1. 高 性 能 计 算 的 意 义 ( 11) 28Advanced Computer ArchitectureThe School of Information Science and Engineering28 1. 高 性 能 计 算 的 意 义 ( 12) 29Advanced Computer ArchitectureThe School of Information Science and Engineering29 1. 高 性 能 计 算 的 意 义 ( 13) 30Advanced Computer ArchitectureThe School of Information Science and Engineering30 1. 高 性 能 计 算 的 意 义 ( 14) 31Advanced Computer ArchitectureThe School of Information Science and Engineering31 1. 高 性 能 计 算 的 意 义 ( 15) 32Advanced Computer ArchitectureThe School of Information Science and Engineering32 1. 高 性 能 计 算 的 意 义 ( 16) 33Advanced Computer ArchitectureThe School of Information Science and Engineering33 1. 高 性 能 计 算 的 意 义 ( 17) 34Advanced Computer ArchitectureThe School of Information Science and Engineering 高 性 能 计 算 的 战 略 地 位 ( 中 国 ) 国 家 大 力 发 展 高 性 能 计 算 军 事 : 银 河 、 神 威 等 民 用 : 曙 光 、 联 想 等 高 性 能 计 算 已 应 用 到 国 民 经 济 的 多 个 行 业 石 油 、 气 象 、 军 事 、 科 研 等 国 产 高 性 能 计 算 机 曾 进 入 TOP500前 10位 , 总 数也 大 幅 增 加 安 装 的 计 算 机 总 数 在 增 长 ( 28台 ) 35Advanced Computer ArchitectureThe School of Information Science and Engineering 我 国 超 级 计 算 机 发 展 年 谱型 号 面 世 时 间 每 秒 运 算 速 度 ( 峰 值 )银 河 1983年 1亿 次曙 光 一 号 1992年 6.4亿 次银 河 1994年 10亿 次银 河 1997年 130亿 次神 威 1999年 3840亿 次深 腾 1800 2002年 1万 亿 次曙 光 4000A 2004年 11万 亿 次神 威 3000A 2007年 18万 亿 次深 腾 7000 2008年 106.5万 亿 次曙 光 5000A 2008年 230万 亿 次 天 河 一 号 2009年 1206万 亿 次 36Advanced Computer ArchitectureThe School of Information Science and Engineering36 1. 高 性 能 计 算 的 意 义 ( 18) 37Advanced Computer ArchitectureThe School of Information Science and Engineering37 1. 高 性 能 计 算 的 意 义 ( 19) 38Advanced Computer ArchitectureThe School of Information Science and Engineering 230万 亿 次 的 浮 点 运 算6600枚 巴 塞 罗 那型 四 核 处 理 器 (主 频1.9GHz)。30720颗 计 算 核 心 ,122.88TB内 存 , 磁 盘 700TB采 用 低 延 迟 的 20Gb的 网络 互 联IBM“Roadrunner走 鹃 ”TOP500中 第 一 39Advanced Computer ArchitectureThe School of Information Science and Engineering 峰 值 速 度 和 实 测 速 度分 别 为 每 秒 1206.19万亿 次 和 563.1万 亿 次 CPU/GPU混 合 异 构系 统 6144个 通 用 处 理 器 ;5120个 加 速 处 理 器 内存 总 容 量 98TB通 信 带 宽 40Gbps共 享磁 盘 总 容 量 为 1PB 。共 享 磁 盘 总 容 量 为1PB Top500中 第 五 位 美 国 克 雷 公 司 “ 美 洲 虎 ” ( Jaguar) 第 一 , 1.76千 万 亿 次 , 中 国 “ 星 云 ” 第 二 40Advanced Computer ArchitectureThe School of Information Science and Engineering 41Advanced Computer ArchitectureThe School of Information Science and Engineering 高性能计算与高性能计算机 高 性 能 计 算 的 意 义 高 性 能 计 算 的 内 在 含 义 高 性 能 计 算 的 应 用 需 求 高 性 能 计 算 的 战 略 地 位 高 性 能 计 算 发 展 与 现 状 高 性 能 计 算 机 的 发 展 高 性 能 计 算 的 现 状 高 性 能 计 算 面 临 的 主 要 问题 功 耗 存 储 (memory wall) 编 程 (programming wall) 高 性 能 计 算 的 未 来 Petaflops超 级 计 算 机 展 望 若 干 新 技 术 中 国 高 性 能 计 算 的 机 遇 和 挑 战 42Advanced Computer ArchitectureThe School of Information Science and Engineering 高性能计算机高 性 能 计 算 机由 多 个 计 算 单 元 组 成 , 运 算 速 度 快 、 存 储 容 量 大 、 可 靠 性 高的 计 算 机 系 统 。也 称 为 : 巨 型 计 算 机 、 超 级 计 算 机并 行 计 算 机由 多 个 处 理 单 元 组 成 的 计 算 机 系统 , 这 些 处 理 单 元 相 互 通 讯 和 协助 , 能 够 高 速 、 高 效 地 求 解 大 型复 杂 问 题 。 43Advanced Computer ArchitectureThe School of Information Science and Engineering 其发展历程可以简单的分为两个时代 专 用 时 代包 括 向 量 机 , MPP系 统 , SGI NUMA 系 统 , SUN大 型 SMP系 统 , 也 包 括 我 国 的 神 威 ,银 河 , 曙 光 1000等 。之 所 以 称 为 “ 专 用 ” , 并 不 是 说 它 们 只 能 运 行 某 种 应 用 , 是 指 它 们 的 组 成 部 件 是专 门 设 计 的 , 它 们 的 CPU板 , 内 存 板 , I/O板 , 操 作 系 统 , 甚 至 I/O系 统 , 都 是 不 能在 其 它 系 统 中 使 用 的 。 由 于 技 术 上 桌 面 系 统 与 高 端 系 统 的 巨 大 差 异 , 和 用 户 群 窄小 。 普 及 时 代高 性 能 计 算 机 价 格 下 降 , 应 用 门 槛 降 低 , 应 用 开 始 普 及 。 两 个 技 术 趋 势 起 到 重 要作 用 。商 品 化 趋 势 使 得 大 量 生 产 的 商 品 部 件 接 近 了 高 性 能 计 算 机 专 有 部 件 标 准 化 趋 势 使 得 这 些 部 件 之 间 能 够 集 成 一 个 系 统 中 , 其 中 X86处 理 器 、 以 太 网 、 内存 部 件 、 Linux都 起 到 决 定 性 作 用 。集 群 系 统 是 高 性 能 计 算 机 的 一 种 , 它 的 技 术 基 础 和 工 业 基 础 都 是 商 品 化 和 标 准 化 。 44Advanced Computer ArchitectureThe School of Information Science and Engineering 高性能计算机系统结构 并 行 向 量 机 SMP DSM( NUMA) MPP, 节 点 可 以 是 单 处 理 器 的 节 点 , 也 可 以 是SMP, DSM Cluster Constellation 45Advanced Computer ArchitectureThe School of Information Science and Engineering 并行计算机系统类型 Flynn分 类 :SISD, SIMD, MIMD, MISD 结 构 模 型 :PVP, SMP, MPP, DSM, COW 访 存 模 型 :UMA, NUMA, COMA, CC-NUMA, NORMA 46Advanced Computer ArchitectureThe School of Information Science and Engineering 并行计算机分类Flynn分 类Flynn(1972)提 出 指 令 流 、 数 据 流 和 多 倍 性 概 念 , 把 不 同 的 计 算 机 分为 四 大 类 : SISD( Single-Instruction Single-Data) SIMD( Single-Instruction Multi-Data) MISD( Multi-Instruction Single-Data) MIMD( Multi-Instruction Multi-Data)现 代 高 性 能 计 算 机 都 属 于 MIMD。 MIMD从 结 构 上和 访 存 方 式 上 , 又 可 以 分 为 : 结 构 模 型 : PVP, SMP, MPP, DSM, COW 访 存 模 型 : UMA, NUMA, COMA, CC-NUMA, NORMA 47Advanced Computer ArchitectureThe School of Information Science and Engineering 结构模型 48Advanced Computer ArchitectureThe School of Information Science and Engineering 对称多处理机系统(SMP) SMP 对 称 式 共 享 存 储 :任 意 处 理 器可 直 接 访 问 任 意 内 存 地 址 ,且访 问 延 迟 、 带 宽 、 机 率 都 是 等价 的 ; 系 统 是 对 称 的 ; 微 处 理 器 : 一 般 少 于 64个 ; 处 理 器 不 能 太 多 , 总 线 和 交 叉开 关 的 一 旦 作 成 难 于 扩 展 ; 例 子 : IBM R50, SGI Power Challenge, SUN Enterprise, 曙 光 一 号 ; 49Advanced Computer ArchitectureThe School of Information Science and Engineering 分布式共享存储系统(DSM) DSM 分 布 共 享 存 储 : 内 存 模 块 物 理 上 局 部 于各 个 处 理 器 内 部 ,但 逻 辑 上 (用 户 )是 共享 存 储 的 ; 这 种 结 构 也 称 为 基 于 Cache目 录 的 非 一 致 内 存 访 问 (CC-NUMA)结 构 ;局 部 与 远 程 内 存 访 问 的 延 迟 和 带 宽 不 一致 ,3-10倍 高 性 能 并 行 程 序 设 计 注 意 ; 与 SMP的 主 要 区 别 : DSM在 物 理 上 有 分 布在 各 个 节 点 的 局 部 内 存 从 而 形 成 一 个 共享 的 存 储 器 ; 微 处 理 器 : 16-128个 ,几 百 到 千 亿 次 ; 代 表 : SGI Origin 2000, Cray T3D; 50Advanced Computer ArchitectureThe School of Information Science and Engineering 大规模并行计算机系统(MPP) MPP 物 理 和 逻 辑 上 均 是 分 布 内 存 能 扩 展 至 成 百 上 千 个 处 理 器(微 处 理 器 或 向 量 处 理 器 ) 采 用 高 通 信 带 宽 和 低 延 迟 的 互联 网 络 (专 门 设 计 和 定 制 的 ) 一 种 异 步 的 MIMD机 器 ; 程 序 系由 多 个 进 程 组 成 , 每 个 都 有 其私 有 地 址 空 间 , 进 程 间 采 用 传递 消 息 相 互 作 用 ; 代 表 :CRAY T3E(2048), ASCI Red(3072), IBM SP2, 曙 光 1000 51Advanced Computer ArchitectureThe School of Information Science and Engineering 集群系统(Cluster) Cluster 每 个 节 点 都 是 一 个 完 整 的 计 算机 各 个 节 点 通 过 高 性 能 网 络 相 互连 接 网 络 接 口 和 I/O总 线 松 耦 合 连接 每 个 节 点 有 完 整 的 操 作 系 统 曙 光 2000、 3000、 4000, ASCI Blue Mountain 52Advanced Computer ArchitectureThe School of Information Science and Engineering 访存模型UMA: NORMA:NUMA: 多 处 理 机 ( 单 地 址 空 间 共 享 存 储 器 ) UMA: Uniform Memory Access NUMA: Nonuniform Memory Access多 计 算 机 ( 多 地 址 空 间 非 共 享 存 储 器 ) NORMA: No-Remote Memory Access 53Advanced Computer ArchitectureThe School of Information Science and Engineering 结构模型访存模型UMA: NUMA: NORMA: 54Advanced Computer ArchitectureThe School of Information Science and Engineering 多处理机 64-byte line size 10 clock cycles latency; Write Back update policy 138Advanced Computer ArchitectureThe School of Information Science and Engineering 139Advanced Computer ArchitectureThe School of Information Science and Engineering Intel Multi-core Plan 140Advanced Computer ArchitectureThe School of Information Science and Engineering Intel Multi-core Plan 141Advanced Computer ArchitectureThe School of Information Science and Engineering Intelstera-scalechip 142Advanced Computer ArchitectureThe School of Information Science and Engineering Cell from IBM and Sony 143Advanced Computer ArchitectureThe School of Information Science and Engineering Cell from IBM and Sony 144Advanced Computer ArchitectureThe School of Information Science and Engineering Intel 80核 芯 片 (2007) 80个 处 理 核 心 1 Teraflop 100亿 次 运 算 /瓦 特 主 频 3.1GHz 面 积 300mm, 各 CPU内 核 与 内 存 1对 1地 连 接 , 分 别 拥 有256MBps的 内 存 带 宽 32MB的 片 上 静 态 RAM 。 单 芯 片 整 体 的 内 存 带 宽达 到 了 1TB/s 13.75mm * 22 mm 145Advanced Computer ArchitectureThe School of Information Science and Engineering IBM POWER7(2010) 146Advanced Computer ArchitectureThe School of Information Science and Engineering Niagara from SUN 147Advanced Computer ArchitectureThe School of Information Science and EngineeringGPU TransformCPUApplication Rasterize Shade VideoMemory(Textures)Xformed, Lit Vertices (2D) Graphics State Render-to-tex tureAssemblePrimitivesVertices (3D) Screenspace triangles (2D) Fragments (pre-pixels) Final Pixels (Color, Depth)Programmable vertex processor! Programmable pixel processor! FragmentProcessorGPUFundamentals:TheModernGraphicsPipelineVertexProcessor Geometryroces or 148Advanced Computer ArchitectureThe School of Information Science and Engineering GPUFundamentals:TheModernGraphicsPipeline 149Advanced Computer ArchitectureThe School of Information Science and Engineering 150Advanced Computer ArchitectureThe School of Information Science and Engineering 151Advanced Computer ArchitectureThe School of Information Science and Engineering 152Advanced Computer ArchitectureThe School of Information Science and Engineering For a specific program compiled to run on a specific machine “A”, the following parameters are provided: Thetotalinstructioncountoftheprogram. Theaveragenumberofcyclesperinstruction(averageCPI). Clockcycleofmachine“A” How can one measure the performance of this machine running this program? Intuitivelythemachineissaidtobefasterorhasbetterperformancerunningthisprogramifthetotalexecutiontimeisshorter. Thustheinverseofthetotalmeasuredprogramexecutiontimeisapossibleperformancemeasureormetric: Performance A=1/ExecutionTimeAHowtocompareperformanceofdifferentmachines?Whatfactorsaffectperformance?Howtoimproveperformance? 153Advanced Computer ArchitectureThe School of Information Science and Engineering A program is comprised of a number of instructions, I Measuredin: instructions/program The average instruction takes a number of cycles per instruction (CPI) to be completed. Measuredin:cycles/instruction IPC(InstructionsPerCycle)=1/CPI CPU has a fixed clock cycle time C=1/clockrate Measuredin: seconds/cycle CPU execution time is the product of the above three parameters as follows: CPUTime=ICxCPIxCCCPUtime=Seconds =InstructionsxCyclesxSeconds Program ProgramInstructionCycle 154Advanced Computer ArchitectureThe School of Information Science and Engineering CPUtime =Seconds =InstructionsxCyclesxSecondsProgram ProgramInstructionCycleCPIIPC Clock Cycle CInstruction Count IProgramCompilerOrganization(Micro-Architecture)TechnologyInstruction SetArchitecture (ISA) X X X X X X X X X 155Advanced Computer ArchitectureThe School of Information Science and Engineering CompilerProgrammingLanguageApplicationDatapathControlTransistors Wires PinsISAFunctionUnits Cyclespersecond(clockrate).Megabytespersecond.Executiontime:Targetworkload,SPEC95,SPEC2000,etc.Each metric has a purpose, and each can be misused.(millions)ofInstructionspersecondMIPS(millions)of(F.P.)operationspersecondMFLOP/s 156Advanced Computer ArchitectureThe School of Information Science and Engineering The most popular and industry-standard set of CPU benchmarks. SPECmarks, 1989: 10programsyieldingasinglenumber(“SPECmarks”). SPEC92, 1992: SPECInt92(6integerprograms)andSPECfp92(14floatingpointprograms). SPEC95, 1995: SPECint95 (8 integer programs): go, m88ksim, gcc, compress, li, ijpeg, perl, vortex SPECfp95 (10 floating-point intensive programs): tomcatv, swim, su2cor, hydro2d, mgrid, applu, turb3d, apsi, fppp, wave5 Performance relative to a Sun SuperSpark I (50 MHz) which is given a score of SPECint95 = SPECfp95 = 1 SPEC CPU2000, 1999: CINT2000(11integerprograms).CFP2000(14floating-pointintensiveprograms) PerformancerelativetoaSunUltra5_10(300MHz)whichisgivenascoreofSPECint2000=SPECfp2000=100 157Advanced Computer ArchitectureThe School of Information Science and Engineering Top20SPECCPU2000Results(AsofMarch2002)# MHz Processor int peak int base MHz Processor fp peak fp base 1 1300 POWER4 814 790 1300 POWER4 1169 1098 2 2200 Pentium 4 811 790 1000 Alpha 21264C 960 776 3 2200 Pentium 4 Xeon 810 788 1050 UltraSPARC-III Cu 827 7014 1667 Athlon XP 724 697 2200 Pentium 4 Xeon 802 7795 1000 Alpha 21264C 679 621 2200 Pentium 4 801 7796 1400 Pentium III 664 648 833 Alpha 21264B 784 6437 1050 UltraSPARC-III Cu 610 537 800 Itanium 701 7018 1533 Athlon MP 609 587 833 Alpha 21264A 644 5719 750 PA-RISC 8700 604 568 1667 Athlon XP 642 59610 833 Alpha 21264B 571 497 750 PA-RISC 8700 581 52611 1400 Athlon 554 495 1533 Athlon MP 547 50412 833 Alpha 21264A 533 511 600 MIPS R14000 529 49913 600 MIPS R14000 500 483 675 SPARC64 GP 509 37114 675 SPARC64 GP 478 449 900 UltraSPARC-III 482 42715 900 UltraSPARC-III 467 438 1400 Athlon 458 42616 552 PA-RISC 8600 441 417 1400 Pentium III 456 43717 750 POWER RS64-IV 439 409 500 PA-RISC 8600 440 39718 700 Pentium III Xeon 438 431 450 POWER3-II 433 42619 800 Itanium 365 358 500 Alpha 21264 422 383 20 400 MIPS R12000 353 328 400 MIPS R12000 407 382Source: http:/ Top 20 SPECfp2000Top 20 SPECint2000 158Advanced Computer ArchitectureThe School of Information Science and Engineering Amdahls Law: The performance gain from improving some portion of a computer is calculated by: Speedup = Performance for entire task using the enhancement Performance for the entire task without using the enhancementor Speedup = Execution time without the enhancement Execution time for entire task using the enhancement 159Advanced Computer ArchitectureThe School of Information Science and Engineering The performance enhancement possible due to a given design improvement is limited by the amount that the improved feature is used Amdahls Law:PerformanceimprovementorspeedupduetoenhancementE: Execution Time without E Performance with E Speedup(E) = - = - Execution Time with E Performance without E SupposethatenhancementEacceleratesafractionFoftheexecutiontimebyafactorSandtheremainderofthetimeisunaffectedthen: Execution Time with E = (1-F) + F/S) X Execution Time without E Hence speedup is given by: Execution Time without E 1Speedup(E) = - = - (1 - F) + F/S) X Execution Time without E (1 - F) + F/S 160Advanced Computer ArchitectureThe School of Information Science and Engineering Before:ExecutionTimewithoutenhancementE:Unaffected, fraction: (1- F)After: ExecutionTimewithenhancementE:EnhancementEacceleratesfractionFofexecutiontimebyafactorofSAffected fraction: FUnaffected, fraction: (1- F) F/SUnchanged Execution Time without enhancement E 1Speedup(E) = - = - Execution Time with enhancement E (1 - F) + F/S 161Advanced Computer ArchitectureThe School of Information Science and Engineering For the RISC machine with the following instruction mix given earlier:Op Freq Cycles CPI(i) %TimeALU 50% 1 .5 23%Load 20% 5 1.0 45%Store 10% 3 .3 14%Branch 20% 2 .4 18% If a CPU design enhancement improves the CPI of load instructions from 5 to 2, what is the resulting performance improvement from this enhancement:Fraction enhanced = F = 45% or .45Unaffected fraction = 100% - 45% = 55% or .55Factor of enhancement = 5/2 = 2.5Using Amdahls Law: 1 1Speedup(E) = - = - = 1.37 (1 - F) + F/S .55 + .45/2.5 CPI = 2.2 162Advanced Computer ArchitectureThe School of Information Science and Engineering Suppose that enhancement Ei accelerates a fraction Fi of the execution time by a factor Si and the remainder of the time is unaf

注意事项

本文(《高级体系结构》PPT课件)为本站会员(san****019)主动上传,装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知装配图网(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!