淘宝大数据量产品技术架构33
《淘宝大数据量产品技术架构33》由会员分享,可在线阅读,更多相关《淘宝大数据量产品技术架构33(33页珍藏版)》请在装配图网上搜索。
1、淘宝大数据量产品技术架构张轩丞(朋春)淘宝网-数据平台与产品部1关于张轩丞(朋春)淘宝数据平台与产品部(杭州)vi党,脚本语言爱好者关注NodeJS,cnode社区组织者之一:我是aleafs2数据平台与产品淘宝网淘宝卖家供应商消费者搜索、浏览、收藏、交易、评价.3一些数字淘宝主站:30亿店铺、宝贝浏览10亿计的在线宝贝数千万量级交易笔数数据产品:50G统计汇总结果千万量级数据查询请求平均20.8ms的响应时间(6月1日)4海量数据带来的挑战计算计算的速度处理吞吐量存储存储是为了更方便地查询硬盘、内存的成本查询“大海捞针”全“表”扫描5架构总览主站备库RAC主站日志数据源MyFOXProm存储
2、层数据中间层/glider查询层数据魔方淘宝指数开放API产品Hadoop集群/云梯计算层实时流数据DataX/DbSync/TimeTunnel1500节点,每日40000 JOB,处理数据1.5PB,凌晨2点结束,结果20T6今天的话题关系型数据库仍然是王道NoSQL是SQL的有益补充用中间层隔离前后端缓存是系统化的工程7关系型数据库仍然是王道8关系型数据库有成熟稳定的开源产品SQL有较强的表达能力只存储中间状态的数据查询时过滤、计算、排序数据产品的本质拉关系做计算SELECT IF(INSTR(f.keyword,)0,UPPER(TRIM(f.keyword),CONCAT(b.bra
3、nd_name,UPPER(TRIM(f.keyword)AS f0,SUM(f.search_num)AS f1,ROUND(SUM(f.search_num)/SUM(f.uv),2)AS f3,ROUND(AVG(f.uv),2)AS f4 FROM dm_fact_keyword_brand_d f INNER JOIN dim_brand b ON f.keyword_brand_id=b.brand_id WHERE f.keyword_type_id=1 AND f.keyword!=AND keyword_cat_id IN(50002535)AND thedate=2011-
4、07-07 GROUP BY f0 ORDER BY SUM(f.search_num)DESC LIMIT 0,1009存储在DB中的数据10分布式MySQL集群字段+条目数分片MyISAM引擎离线批量装载跨机房互备数据装载数据查询MyFOX11透明的集群中间层MyFOX透明查询基于NodeJS,1200QPS数据装载路由计算数据装入一致性校验集群管理配置信息维护监控报警12MyFOX-数据查询取分片数据(异步并发)取分片结果合并(表达式求值)合并计算缓存路由SQL解析语义理解查询路由字段改写分片SQL计算规则APC缓存X13MyFOX-节点结构MyFOX热节点(MySQL)15k SAS盘
5、,300G*12,raid10内存:24G成本:4.5W/T冷节点(MySQL)7.2k SATA盘,1T*12,raid10内存:24G成本:1.6W/T路由表30天无访问的冷数据新增热数据14小结根据业务特点分库分表冷热数据分离降低成本,好钢用在刀刃上更有效地使用内存15SQL虽牛,但是如果继续用MySQL来存储数据,你怎么建索引?16NoSQL是SQL的有益补充17全属性交叉运算不同类目的商品有不同的属性同一商品的属性对有很多用户查询所选择的属性对不确定Prometheus定制化的存储实时计算18Prom数据装载 PromHbaseHbaseHbase索引:交易id列表属性对交易1(二进
6、制,定长)交易219Prom数据查询求SUM(alipay)属性属性值笔记本尺寸13寸笔记本定位商务定位节点11,2,3,4,5,6,7,8,9节点21,2,3,4,5,6,7查索引求交集节点21,2,4,6,7本地SUM运算(Hbase扩展)汇总计算写入缓存20Prom数据冗余明细数据大量冗余牺牲磁盘容量,以得到:避免明细数据网络传输变大量随机读为顺序读21小结NoSQL是SQL的有益补充“预算”与“现算”的权衡“本地”与“集中”的协同22其他的数据来源Prom的其他应用(淘词、指数等)从isearch获取实时的店铺、商品描述从主站搜索获取实时的商品数异构数据源如何整合统一?23用中间层隔离
7、前后端24pengchun$tail/logs/glider-rt2.log127.0.0.1 14/Jun/2011:14:54:29+0800 GET/glider/db/brand/brandinfo_d/get_hot_brand_top/where HTTP/1.1 200 17 0.06525数据中间层Glider多数据源整合UNIONJOIN输出格式化PERCENT/RANK OVER JSON输出26Glider架构DispatcherController配置解析请求解析一级缓存actionMyFOXProm二级缓存datasourceJOINUNIONfilter27缓存是系
8、统化的工程28glider缓存系统前端产品一级缓存data二级缓存URL请求,nocache?nocache?nocache?Min(ttl)ttl,http headeretag,http header29小结用中间层隔离前后端底层架构对前端透明水平可扩展性缓存是把双刃剑降低后端存储压力数据一致性问题缓存穿透与失效30回顾关系型数据库仍然是王道分库分表、冷热分离NoSQL是SQL的有益补充用冗余避免网络传输和随机读用中间层隔离前后端异构数据源的整合缓存是系统化的工程数据一致性、穿透与雪崩31矛盾之美SQLNoSQL计算时机“预算”Hadoop/实时计算引擎“现算”MySQL+中间层Hbase+中间层计算场所本地MySQL单机Hbase Region Server集中MyFOX中间层Prom中间层数据存储冷7200 SATA盘HDFS热15000 SAS盘+缓存HDFS+缓存32谢谢33
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高考生物一轮复习-1-3-2物质出入细胞的方式ppt课件-教科版
- 高考历史必修一第七单元复习课件
- 串联电路的特点1课件
- 平抛运动教学ppt课件
- 串联电路电压的特点课件
- 高考数学(文)一轮复习名师公开课省级获奖ppt课件正弦定理和余弦定理(湘教版)
- 高考生物一轮复习-1-3-1细胞与能量、酶ppt课件-教科版
- 高考生物一轮复习-1-4-3减数分裂和受精作用ppt课件-教科版
- 串联质谱气相色谱质谱结果解读培训课件
- 平行四边形的判定优秀ppt课件
- 高考数学-6.3二元一次不等式(组)与简单的线性规划问题配套ppt课件-理-新人教A版
- 高二英语下学期单词讲解课件
- 高考数学-4-3三角函数的图像与性质ppt课件-理
- 串联型晶体管稳压电源课件
- 平行四边形的面积公开课一等奖课件