大数据技术应用实施方案建议-V0

上传人:zhan****gclb 文档编号:115713501 上传时间:2022-07-03 格式:PPTX 页数:20 大小:1.02MB
收藏 版权申诉 举报 下载
大数据技术应用实施方案建议-V0_第1页
第1页 / 共20页
大数据技术应用实施方案建议-V0_第2页
第2页 / 共20页
大数据技术应用实施方案建议-V0_第3页
第3页 / 共20页
资源描述:

《大数据技术应用实施方案建议-V0》由会员分享,可在线阅读,更多相关《大数据技术应用实施方案建议-V0(20页珍藏版)》请在装配图网上搜索。

1、大数据技术大数据技术应用实施方案建议应用实施方案建议信息技术管理部2013年6月1目录 我行新一代数据集成平台能力要求 业内大数据技术的特性及应用研究 我行大数据技术的应用策略2新一代管理分析类应用需求3运营与信息安全运行日志存储与分析安全日志存储与分析营销支持加强客户洞察分析,实现灵活深入的客户细分;科学的客户行为及渠道经营分析报告与决策全面的计划预算管理 价值导向的管理会计;流程化的财务会计体系 集成高效的财务运作 及时、准确的财务报告风险管理 满足新协议合规和内部管理需要的全面风险管理体系市场风险、信用风险、操作风险等全面的风险计量;风险建模监管合规支持全面整合的反洗钱和欺诈风险管理;监

2、管合规长时间保存数据需求;审计供数;非结构化数据保存数据管控支持数据完整、全面(广度、深度);数据可信;数据易用;数据生命周期管理应用需求新一代管理分析类应用对于大数据处理分析技术提出了高要求新一代数据集成平台数据特点与挑战4Volume数量大 数据内容丰富(账户信息、账户明细、流水信息等)数据存储周期长(监管要求保存20年)PB级的海量数据Variety种类多 数据类型多样,包括结构化、半结构化、非结构化数据,如交易数据、日志数据、影像视频数据等等Velocity速度快 近实时数据处理(即席数据分析)实时访问(如历史数据查询)流式数据计算(如反欺诈)大数据时代,技术面临着Volume、Var

3、iety、Velocity 3V的挑战目录 我行新一代数据集成平台能力要求 业内大数据技术的特性及应用研究 技术特性研究 技术应用研究 我行大数据技术的应用策略5大数据技术一览图6大数据技术主要包含应用领域(如商务智能)、基础设施领域(结构化数据库技术、分析型数据技术等)和基础技术领域的各种相关技术。重点调研的相关大数据存储技术产品调研基于商用硬件的分布式数据库技术HADOOP技术对于大数据技术、产品的调研分两类进行,即关系型数据库与非关系型技术,前者以基于X86的MPP技术为代表,后者以HADOOP技术为代表大数据技术特性研究结论8分析维度X86 MPPHADOOP数据特性仅支持结构化数据支

4、持非结构化、半结构化、结构化数据扩展性可扩展至数百节点可扩展至数千个节点数据可靠性每份数据只有一个备份每份数据可有多个备份产品成熟度介于传统关系型数据库与HADOOP之间新技术,产品与技术均不成熟易开发性相对容易与传统数据库差异较大,开发复杂运维管理缺少统一的运维管理工具复杂,缺少统一的运维管理工具人员技能要求一般,仅需熟悉传统关系型数据库高,需要对产品、技术及程序设计有深入理解基于X86的MPP技术与传统分析型数据库的差异不大,但是提供了良好的扩展性,适合替代现有技术进行关系型数据的分析HADOOP技术支持的数据类型多,扩展性强,适合海量非结构化的数据分析,但技术不成熟,需逐步试点目录 我行

5、新一代数据集成平台能力要求 业内大数据技术的特性及应用研究 技术特性研究 技术应用研究 我行大数据技术的应用策略9美国银行大数据技术应用情况10技术类型产品系统/机柜数集群容量(PB)数据量(PB)应用领域使用案例专有一体机Teradata2453.1数据仓库企业/集中式数据仓库Netezza80+2.81.1数据集市OLAPExadata10+10.08数据集市(OLAP 和 OLTP混合)全球人力资源部、CRC(客户报告中心:22TB)、AMT基于商用硬件的分布式数据库Vertica20.570.34数据集市OLAPHadoop技术Cloudera Hadoop若干1.61.6ETL集团D

6、W、电子商务、信用风险数据暂存与归档银行卡系统过期数据归档;集团数据仓库数据归档信息安全数据库、防火墙、应用程序等日志存储与分析风险分析定量风险技术(最大的Hadoop应用集群,173台机器,1.6PB未压缩数据)、欺诈检测沙箱分析美国银行在数据集市领域大量使用X86 MPP技术,HADOOP主要用于ETL、数据归档、日志分析及风险分析等应用美国银行未来大数据技术应用11产品美国银行的最佳定位战略性产品IBM Netezza 纯分析性的工作量的首选解决方案。高性能和高扩展性。费用较低,比 Exadata 或 Teradata 更容易进行管理。并发性方面的局限,使其适用于数据市场,或可能适合小型

7、部门的数据仓库。是Oracle Exadata 适用于 I/O 要求极为严苛并需要 20 TB 以上的交易/分析混合工作量。能够处理同一系统中的多种工作量。也可视为适用于 20 TB 以上的分析数据库(目前运行的是标准 Oracle 数据库),因为它比 Netezza 更容易移植是Vertica(HP)作为一种新兴的主要候选方案,可替代 Netezza 和 Exadata,为大型数据市场或部门数据仓库(20 TB 以上)提供基于商品的列式数据库。通过创新的写优存储和读优存储以及经验证的 PB 级别,扩展架构。在美国银行进行了两项重大且成功的实施。是Sybase IQ(SAP)列存储的首个商业实

8、施。稳定、成熟的产品。许可交易使部署不受任何限制。通过标准的 x86 服务器和 SAN 运行。以前不属于扩展解决方案,且在这方面仍未经过验证。计划作为 5-20 TB 数据市场的首选商品方案。是Teradata行业标准,适用于大型、要求高和复杂的企业数据仓库,此类数据仓库需要复杂的工作量管理和其他高级功能。高度专有化、昂贵且不易获得支持。美国银行的使用应仅限于 W 数据仓库,以及可能需要与 W 进行极高水平集成的某些数据市场。是SAP HANA 最佳用途是为运行 SAP 软件的应用程序实现加速。对于一般的非 SAP 工作量,不必采用此解决方案。亦没有证据证明,HANA 在 SAP 前端之外的市

9、场广受欢迎。否ParAccel产品的发展速度非常快。供应商声称自己在 POC 方面无人可及。创新的架构和光纤通信。这是此表中唯一一个仍归小型独立供应商所有的解决方案。需要考虑供应商的规模、稳定性和长期生存能力。尽管技术令人印象深刻,但目前没有计划将 ParAccel 作为战略性产品。否结构化数据分析领域,Netezza、Exadata、Vertica、Teradata及Sybase IQ是美国银行未来的战略产品国内银行同业 中国银行 采用HADOOP实现系统日志的分析 中国农业银行 进行历史数据的归档 中国银联 历史数据归档12目前中行、农行、银联等都已经开始了基于HADOOP技术的应用探索及

10、规划淘宝大数据技术应用情况13应用领域n 批处理:ETL数据分析,OLAP大数据量分析主要使用Hive 点击流日志分析;搜索排行榜和其他搜索相关的业务 机器学习n 数据生命周期管理:归档存储:n 历史订单明细查询n 应用规模 3000多个节点,36PB数据,20多个事业群,150多用户组,3000多用户。Hadoop应用发展历程淘宝数据服务平台架构淘宝采用HADOOP技术构建了完整的数据仓库及处理分析平台大数据技术应用研究结论14关系型数据领域非关系型数据领域Teradata主要用于数据仓库X86 MPP技术在数据集市中得到广泛应用HADOOP技术在如下领域得到广泛应用数据归档存储ELT半结构

11、化数据分析随着HADOOP技术快速发展,其对关系型数据的处理支持也越来越强,关系型与非关系型数据的处理技术边界已经日渐模糊,后续应用HADOOP技术可能实现统一的数据处理分析平台目录 我行新一代数据集成平台能力要求 业内大数据技术的发展及应用研究 我行大数据技术的应用策略15我行大数据技术应用规划建议我行大数据技术应用规划建议技术应用领域建议技术应用领域建议ORACLE满足OLTP类应用需求X86 MPP在某些非关键应用领域作为TERADATA的替代技术,降低应用成本;复杂的历史数据查询(如:多表关联,查询条件可自由组合的查询)Teradata核心数据仓库应用海量、多维度的复杂数据分析HADO

12、OP技术历史数据归档;简单历史数据查询(查询条件固定的单表查询);半结构化数据分析;RDW区(ORACLE Exadata)SOR区(X86 MPP)ADW&CM区(TERADATA)LDS区(X86 MPP+HADOOP)HDS-归档区(HADOOP)HDS-访问区(HADOOP+X86 MPP)Staging区第三阶段引入基于X86平台的商用硬件的分布什数据库产品,以较合理的性价比,提高海量数据的计算能力与时俱进、积极应用总体规划、分步实施制定计划、稳步推进第二阶段第一阶段引入遵行HADOOP技术标准的HADOOP技术产品,实现:海量结构化历史数据的归档保存信息安全日志的存储与分析扩展HA

13、DOOP技术的应用范围:电商数据分析其他场景我行大数据技术应用实施路径建议不断丰富大数据技术上的应用功能,形成我行完善的大数据技术应用体系。17HADOOP技术选择方案比较18详细见:比较项 方案方案一:采用免费开源发行版Cloudera Hadoop方案二:采用商业开源发行版(如Cloudera、Hortonworks)方案三:采用闭源的HADOOP技术产品(如Intel Hadoop、IBM BigInsights、EMC Pivotal HD)是否关键指标成熟度与稳定性高高中是应用案例与规模多多少是产品和服务成本低中高是运行维护成本高中中是行内技术储备要求高中中是国内支持力量弱一般稍强是

14、服务支持响应时间长较长一般是运行风险高中中是厂商依赖程度低中高否开放程度高高低否产品按需定制的灵活度高中低否大数据技术应用初步实施计划19阶段主题开始时间结束时间第一阶段引入X86分布式数据库,分担Teradata批量数据处理压力,合理降低成本已完成第二阶段HADOOP测试案例准备与实现2013年6月13日 2013年7月26日HADOOP产品选型测试2013年7月29日 2013年12月30日历史数据归档应用基于HADOOP构建2014年初2014年底信息安全应用日志存储与分析基于HADOOP构建2014年中2015年中第三阶段电子商务大数据分析2015年初2015年底持续应用阶段 不断丰富大数据技术上的应用功能2016年-Q&AQuestions?Questions?20

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!