阿里Hadoop集群架构及服务体系

上传人:ca****in 文档编号:113928238 上传时间:2022-06-27 格式:DOC 页数:6 大小:127.50KB
收藏 版权申诉 举报 下载
阿里Hadoop集群架构及服务体系_第1页
第1页 / 共6页
阿里Hadoop集群架构及服务体系_第2页
第2页 / 共6页
阿里Hadoop集群架构及服务体系_第3页
第3页 / 共6页
资源描述:

《阿里Hadoop集群架构及服务体系》由会员分享,可在线阅读,更多相关《阿里Hadoop集群架构及服务体系(6页珍藏版)》请在装配图网上搜索。

1、阿里Hadoop集群架构及服务体系阿里Hadoop集群架构及服务体系 梁李印(无影) 阿里巴巴集团-海量数据 大纲 1.集群发展现状 2.集群服务模式及挑战 3.Hadoop版本特性 4.集群用户门户 5.集群核心业务架构(三淘) Alibaba confidential 集群发展现状 规模 3000 300025002000 200015001000集群规模(台) 1000700 500200 02009.42010.32010.72012.12012.10上线 集群迁Oracle RAC基服务扩展移机房 本迁移完成 至全集团迎战11.11 Alibaba confidential 集群发展

2、现状 容量与负载 ?集群容量 ?集群 负载 约3200台服务器 每天Job数 150,000+道 物理CPU 30000核 每天hive query数 6,000+ 内存每天扫描数据量 7.5PB 100TB 磁盘每天扫描文件数 4亿 36000块 存储利用率 80% 存储容量 60PB CPU利用率65% 峰值80% Alibaba confidential 集群发展现状 业务 ?150+集群用户组 ?4,500+集群用户 一淘淘宝 ?阿里的“水电煤”服务 聚划算天猫 CBU 支付宝 HDFS MapReduce 云梯Hadoop集群 Alibaba confidential 集群服务模式

3、分组管理 Name Quota /group/taobao-dev /group/tmall-dev Space Quota 按需申请 HDFS 业务方:淘宝测试计费 按需申请 cug-taobao-dev min/maxSlots cug-tmall-dev real Slots MapReduce Alibaba confidential 集群服务模式 数据共享 ?原始表/中间表/元数据共享 ?避免重复计算和存储 ?“阿里巴巴数据交换中心” 淘宝 交易表 一淘 天猫 评价表 支付宝成交表金融 HDFS Alibaba confidential 集群服务模式 集群共享 ?生产开发测试预发共享

4、一个集群 ?重点生产业务09点运行 ?非生产限制在923点可用 测试 开发预发 ?避免数据在不同集群间拖动 点 923点 923点923 生产 全天可用HDFS MapReduce 云梯Hadoop集群 Alibaba confidential 集群服务模式 生态系统 Hive 基于MapReduce的SQL引擎 Streaming 可以用任意可执行程序运行MapReduce Mahout 机器学习算法库 Pig 类似于Hive的大规模数据分析工具 HBase 准在线存储服务 Alibaba confidential 集群服务模式 优势 自建Hadoop集群 共用Hadoop集群 集群搭建 机

5、器采购,机房布局 不用考虑 集群运维 节点宕机后需要立即介入 不用考虑 集群扩容计算或存储资源不足,需网页申请,审批通过即 要扩容,采购新的机器 可生效 代码维护Hadoop代码维护,专业的 虑 Hadoop开发人员不用考 数据复制使用其他团队数据,需要集团大部分数据集中在 从另外集群复制过来 一起 成本 11668台 2861台 Alibaba confidential 集群服务挑战 稳定性 ?异常作业拖垮拖慢集群 ?异常大作业浪费slots ?部分Slave机器带宽被打满 ?NameNode被单个作业拖慢 ?近期案例 用户作业的Task中创建了大量线程 用户提交的作业配置了77777770

6、0个Reduce Task 用户作业的Task在slave机器上创建了1000w+临时文件 Alibaba confidential 集群服务挑战 兼容性 1000+客户端/Gateway, 100+部门 客户端全量升级不现实 服务器端升级要保持向下兼容 客户端版本: ?Hadoop 0.19.x ?Hadoop 0.20.2 ?CDH3u3 ?内部版本 Alibaba confidential 集群服务挑战 扩展性 ?NameNode压力 ?2亿文件 + 2.8亿Block ?RPC ops 1.82.4万 ?JobTracker调度压力 ?并发运行1000+ Job ?并发运行4万+ Ma

7、p和2万+ Reduce ?1000+ Gateway轮询作业状态 ?JVM的极限 ?上限130G heap ?超过100G的JVM Heap Alibaba confidential 集群服务挑战 诊断与测试 ?上千台机器,多个 Master ?上百个指标:系统,Java GC,Hadoop metrics? ?集群突然变慢了?某个组新上线大规模作业? ?大压力情况下出现bug了! ?每个季度都有新版本发布,版本性能是否有提升? Alibaba confidential Hadoop版本特性 资源调度 ?调度器改造 增加JobLevel概念,优先保证Level高的作业 支持异构操作系统调度,

8、如RTEL 4u7,5u6 服务端控制Reduce启动时机(slow start) ?动态调整slots配置 动态增减TaskTracker上的slots个数 根据集群map和reduce使用比例调整 Alibaba confidential Hadoop版本特性 安全改进 客户端服务端 用户名 +用户组用户名 验证 通过 密码 用户名 + 密码 验证 通过 ?增加密码,加强安全性 组权限验证 ?将用户组信息放到服务端,方便客户端配置 Alibaba confidential Hadoop版本特性 扩展UGO ?满足数据的跨部门公司访问 ?完善的外围系统user group other rwx

9、 + r-x + - /group/taobao/hive/auctions alipay:+R tbclient:+RW 资 权权源 限限ACL 外围系统 注 申审同册 请步 批 Alibaba confidential Hadoop版本特性 稳定性 ?消除异常Job的影响 内存监控 ?单个Task内存限制 ?计算节点内存上限控制 磁盘IO监控 ?Shuffle磁盘的读取限制 ?Shuffle速度限制 ?Job的日志量限制 Job的Task数限制 Job的Counter数限制 Job本地文件系统数据读写量监控 Job创建HDFS文件数目的监控 ? Alibaba confidential H

10、adoop版本特性 性能 ?Master节点的单点性能压力 NameNode改进 ?RPC 改造,Listener 拆分出多个 Reader ?使用读写锁,提高并发度 ?写操作等待sync时释放 handler JobTracker改进 ?Scheduler调度算法重写,从O(n2)降低到O(1) ?一次心跳分配多个Task ?Job History改造成异步写 ?Out-of-bound heartbeat提高调度的效率 Alibaba confidential Hadoop版本特性 JobTracker HA TaskTrackerTaskTracker ?根据JobHistory同步状态

11、 ?满足升级需要 JobClient TaskTracker ?热备 JobClient 提交&轮询 作业心跳 ?不支持自动failover VIP VIP Active Standby JobTracker JobTracker 写Job History 读Job History NFS Alibaba confidential Hadoop版本特性 Hook机制 ?pre-job hook 作业提交前执行 配置JobLevel 自动优化Shuffle参数 自动设置Reduce个数 ?post-job hook 作业结束后执行 收集Job运行数据 Alibaba confidenti

12、al 集群用户门户 一站式Portal 用户服务 组管理员服务 集群管理员服务 > 申请用户 > 申请审批 > 申请审批 > 申请用户组 > 申请Slots > 管理用户 > 申请Gateway > 申请存储 > 管理用户组 > 进度查询 > 管理Gateway > 查询用户 > Queue管理 > 查询用户组 > Slots管理 > 查询Gateway > 用户手册?集群用户一站式完成各类申请 ?组管理员负责申请计算存储资源 ?集群管理员通过网页控制集群配置 Alibaba confiden

13、tial 集群用户门户 云梯医生 ?集群全局指标 ?存储计算利用率趋势 ?用户组资源使用趋势分析 ?Slots*Sec ?HDFS/Local r/w ?机器机器组视图 ?业务作业对比(前一天前一周) ?数据量增长趋势 ?不同优先级作业资源消耗 ?Master节点关键指标 ?JobTracker心跳频率时间 ?NameNode RPC各项性能指标 Alibaba confidential 集群核心业务 数据平台架构 Oracle 备库 MySQL 备库 日志系统 爬虫数据 Gateway Servers 天网DataX DBSync TimeTunnel 调度系统云梯服务集群数 据 流Map

14、Reduce Jobs Streaming Jobs Hive Jobs 向 数据用户部门 数据平台 搜索 广告 BI 支付宝 口碑 B2B 数据魔方 量子统计 淘数据 推荐系统 搜索排行 对外数据产品资料来源:Velocity China 2010 - 淘宝云梯分布式计 算平台整体架构A3#ff9999lib-a b张a c清on(f淘ide宝ntia)l 集群核心业务 数据同步 ?数据流入 日志数据: TimeTunnel,分布式日志收集工具 数据库表:DataX,前台数据库<=>云梯 (双向同步) DBsync,增量,大表的快速同步 ?其他数据来源 来自其他团队和公司的数据,

15、比如支付宝数据,广告反作弊数据,通过云梯共享 ?数据流出 前台业务系统,如传统数据库、Hbase、DataX ? 在云梯上共享给其他团队和公司,做进一步分析 Alibaba confidential 集群核心业务 数据开发 ?数据分析 Hive SQL Web IDE 帐号和云梯服务集成 ?知识管理 元数据/数据字典/数据订阅/表字段血缘分析 ?存储管理 数据生命周期管理 数据保留策略:周期性删除/极限存储/压缩/HDFS Raid Alibaba confidential 集群核心业务 Web IDE ?Web IDE 开发界面截图 Alibaba confidential Q&A Alibaba confidential 谢 谢 ! Alibaba confidential

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!