MPP数据库将支撑起大数据时代

上传人:痛*** 文档编号:68302934 上传时间:2022-04-02 格式:DOC 页数:8 大小:206KB
收藏 版权申诉 举报 下载
MPP数据库将支撑起大数据时代_第1页
第1页 / 共8页
MPP数据库将支撑起大数据时代_第2页
第2页 / 共8页
MPP数据库将支撑起大数据时代_第3页
第3页 / 共8页
资源描述:

《MPP数据库将支撑起大数据时代》由会员分享,可在线阅读,更多相关《MPP数据库将支撑起大数据时代(8页珍藏版)》请在装配图网上搜索。

1、新型 MPP 数据库将支撑起大数据时代大数据这个领域过去 5 年发展很快、 热度很高, 但是总的来说目前还在起步阶段。 本次 研讨会我会先谈谈数据, 以及大数据对数据处理技术的压力, 然后为大家分享一下为什么这 几年数据处理技术上的创新很多。1. 数据价值的发现与使用在大数据的 4 个 V中,最显著的特征应该是 Value( 价值 ) 。不管数据多大, 是什么结构, 来源如何,能给使用者带来价值的数据是最重要的数据。我跟数据打了 20 多年的交道,从来没感觉到搞数据的地位有今天这么高。整个社会对 数据的认知变了, 大数据最大的贡献至少是让社会各个层面开始认识到数据的重要性, 包括 最高领导和底

2、层的老百姓。目前大家基本达成共识:数据像石油、煤一样是宝贵的资产, 其在的价值非常巨大。另 外一个显著的贡献无疑是互联网企业对于数据的巧妙使用和价值体现。2. 数据处理技术的回顾互联网的数据“大” 是不争的事实, 现在分析一下数据处理技术面临的挑战。 目前除了 互联网企业外,数据处理领域还是传统关系型数据库(RDBMS)的天下。传统 RDBMS的核心设计思想基本上是 30年前形成的。过去 30 年脱颖而出的无疑是 Oracle 公司。全世界数据库 市场基本上被 Oracle ,IBM/DB2,Microsoft/SQL Server 垄断,其他几家市场份额都比较 小。 SAP去年收购了 Syb

3、ase,也想成为数据库厂商。有份量的独立数据库厂商现在就剩下 Oracle 和 Teradata 。开源数据库主要是 MySQL,PostgreSQL ,除了互联网领域外,其他行 业用的很少。这些数据库当年主要是面向OLTP交易型需求设计、开发的,是用来开发人机会话应用为主的。 这些传统数据库底层的物理存储格式都是行存储, 比较适合数据频繁的增 删改操作,但对于统计分析类的查询,行存储其实效率很低。在这些成熟的数据库产品中, 有 2 个典型特例:一个是 Teradata ,一个是 Sybase IQ 。Teradata 一开始就使用 MPP(Massive Parallel Processin

4、g)架构,以软硬一体机的产品方式提供给客户,其定位是高端客户的数据仓库和决策分析系统, Teradata 在全世界的 客户只有几千个。在这个数据分析高端市场上, Teradata 一直是老大,在数据分析技术上 Oracle 和 IBM打不过 Teradata 。 Sybase IQ 是一款最早基于列存储的关系型数据库产品, 其定位跟 Teradata 类似,不过是以软件方式销售的。 Teradata 和 Sybase IQ 在数据分析应 用上的性能其实都比 Oracle ,DB2 等要普遍好。3. 数据增长加速,数据多样化,大数据时代来临如果说现在是大数据时代了, 其实是数据来源发生了质的变化

5、。 在互联网出现之前, 数 据主要是人机会话方式产生的, 以结构化数据为主。 所以大家都需要传统的 RDBMS来管理这 些数据和应用系统。 那时候的数据增长缓慢、 系统都比较孤立, 用传统数据库基本可以满足 各类应用开发。互联网的出现和快速发展, 尤其是移动互联网的发展, 加上数码设备的大规模使用, 今 天数据的主要来源已经不是人机会话了, 而是通过设备、 服务器、 应用自动产生的。传统行 业的数据同时也多起来了, 这些数据以非结构、 半结构化为主, 而真正的交易数据量并不大, 增长并不快。机器产生的数据正在几何级增长,比如基因数据、各种用户行为数据、定位数 据、图片、视频、气象、地震、医疗等

6、等。所谓的“大数据应用”主要是对各类数据进行整理、交叉分析、比对,对数据进行深度 挖掘,对用户提供自助的即席、迭代分析能力。还有一类就是对非结构化数据的特征提取, 以及半结构化数据的容检索、理解等。传统数据库对这类需求和应用无论在技术上还是功能上都几乎束手无策。 这样其实就给 类似 Hadoop 的技术和平台提供了很好的发展机会和空间。互联网公司自然就选择能支撑自 己业务的开源技术了,反过来又推动了开源技术的快速发展。4. 新的数据处理技术、产品和创新为了应对数据处理的压力, 过去十年间在数据处理技术领域有了很多的创新和发展。 除 了面向高并发、 短事务的 OLTP存数据库外 (Altibas

7、e , Timesten) ,其他的技术创新和产品 都是面向数据分析的,而且是大规模数据分析的,也可以说是大数据分析的。在这些面向数据分析的创新和产品中,除了基于Hadoop 环境下的各种 NoSQL外,还有一类是基于 Shared Nothing 架构的面向结构化数据分析的新型数据库产品 ( 可以叫做 NewSQL,) 如: Greenplum(EMC收购 ),Vertica(HP 收购 ) ,Asterdata(TD 收购 ) ,以及南大 通用在国开发的 GBase 8a MPC luster 等。目前可以看到的类似开源和商用产品达到几十个, 而且还有新的产品不断涌出。一个有趣的现象是这些

8、新的数据库厂商多数都还没有 10 年历 史,而且发展好的基本都被收购了。收购这些新型数据库厂商的公司,比如EMC、HP,都希望通过收购新技术和产品进入大数据处理市场,是新的玩家。SAP除了收购 Sybase 外,自己开发了一款叫 HANA的新产品,这是一款基于存、面向数据分析的存数据库产品。这类新的分析型数据库产品的共性主要是:架构基于大规模分布式计算 (MPP); 硬件基于 X86 PC 服务器 ; 存储基于服务器自带的本 地硬盘 ; 操作系统主要是 Linux; 拥有极高的横向扩展能力 (scale out) 和在的故障容错能力 和数据高可用保障机制 ; 能大大降低每 TB数据的处理成本,

9、 为“大数据” 处理提供技术和性 价比支撑。总的来看, 数据处理技术进入了一个新的创新和发展高潮, 机会很多。 这里的主要原因 是一直沿用了 30 年的传统数据库技术遇到了技术瓶颈,而市场和用户的需求在推动着技术 的创新,并为此创造了很多机会。 在大数据面前, 越来越多的用户愿意尝试新技术和新产品, 不那么保守了, 因为大家开始清晰地看到传统技术的瓶颈, 选择新的技术才有可能解决他们 面临的新问题。现在的总体趋势是在数据量快速增长、 多类数据分析并存的需求压力下, 数据处理技术 朝着细分方向发展,过去 30 年一种平台满足所有应用需求的时代已经过去。我们必须开始 根据应用需求和数据量选择最适合

10、的产品和技术来支撑应用。 世界数据处理市场格局正在发 生革命性的变化,传统数据库 (OldSQL) 一统天下变成了 OldSQL+NewSQL+NoSQ其L+他新技术 (流、实时、 存等 )共同支撑多类应用的局面。 在大数据时代, 需要的是数据驱动最优平台和 产品的选择。5. MPP 关系型数据库与 Hadoop的非关系型数据库大数据存储技术路线最典型的共有三种:第一种是采用 MPP架构的新型数据库集群, 重点面向行业大数据, 采用 Shared Nothing 架构, 通过列存储、 粗粒度索引等多项大数据处理技术, 再结合 MPP架构高效的分布式计算 模式,完成对分析类应用的支撑,运行环境多

11、为低成本 PC Server ,具有高性能和高扩展性 的特点,在企业分析类应用领域获得极其广泛的应用。这类 MPP产品可以有效支撑 PB级别的结构化数据分析,这是传统数据库技术无法胜任 的。对于企业新一代的数据仓库和结构化数据分析,目前最佳选择是MPP数据库。1图 1 MPP 架构图第二种是基于 Hadoop 的技术扩展和封装, 围绕 Hadoop 衍生出相关的大数据技术, 应对 传统关系型数据库较难处理的数据和场景, 例如针对非结构化数据的存储和计算等, 充分利 用 Hadoop 开源的优势,伴随相关技术的不断进步,其应用场景也将逐步扩大,目前最为典 型的应用场景就是通过扩展和封装Hadoo

12、p 来实现对互联网大数据存储、分析的支撑。这里面有几十种 NoSQL技术,也在进一步的细分。对于非结构、半结构化数据处理、复杂的ETL流程、复杂的数据挖掘和计算模型, Hadoop 平台更擅长。第三种是大数据一体机, 这是一种专为大数据的分析处理而设计的软、 硬件结合的产品, 由一组集成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析 用途而特别预先安装及优化的软件组成, 高性能大数据一体机具有良好的稳定性和纵向扩展 性。6. 数据仓库的重要性在互联网高速发展之前, 无论是电信运营商, 还是大银行, 保险公司等都花费了巨额资金建立了自己的企业级数据仓库。这些仓库主要是为企

13、业决策者生成企业的一些关键指标(KPI) ,有的企业有几千、甚至上万 KPI 报表,有日表,周表,月表等等。这些系统有几个主要特征:技术架构主要基于传统 RDBMS+ 小型机 + 高端阵列 ( 就是大家说的 IOE) ,当然数据库有部分 DB2, Teradata 等。报表基本都是固定的静态报表,产生的方式是 T+1 ( 无法即时产生 ) 。数据量增长相对缓慢, DW的环境变化很少。多数领导基本上认为花了很多钱, 但看不出是否值得做, 有鸡肋的感觉。 最后大家对大 量的报表都视而不见了。这类系统属于“高富帅”,是有钱的企业给领导用的。最后, 目前多数企业和部门根本就没有数据仓库。其实大家对传统

14、数据的分析还没做得太好、还没有普及,现在又遇上了大数据。数据仓库对企业是真正有用的,其关键还是如何把数据用好。7. 数据处理技术的核心问题到底是什么 ?其实我们一直面临着数据处理中最核心、 最大的问题, 那就是性能问题。 性能不好的技 术和产品是没有生命力的。 数据处理性能问题不是因为大数据才出现, 也不会有了大数据技 术而消失。 处理性能的提升将促进对数据价值的挖掘和使用, 而数据价值挖掘的越多、 越深 入,对处理技术要求就越高。目前的数据仓库只能满足一些静态统计需求,而且是 T+1模式 ;也是因为性能问题,运 营商无法有效构造超过 PB 级别的大数据仓库,无法提供即席查询、自助分析、复杂模

15、型迭 代分析的能力,更无法让大量一线人员使用数据分析手段。今天如果做“大数据”数据仓库,运营商面临的挑战比上个 10 年要大的多。目前没有 单一技术和平台能够满足类似运营商的数据分析需求。 可选的方案只能是混搭架构, 用不同 的分布式技术来支撑一个超越 PB级的数据仓库系统。这个混搭架构主要的核心是新一代的 MPP并行数据库集群 + Hadoop 集群,再加上一些存计算、甚至流计算技术等。大数据需要多元化的技术来支撑。 当前数据处理对企业的挑战越来越大, 主要是下面几 个原因:第一个原因是数据量已经是上一代的一个数量级了,1 个省份级运营商 1 年就可超越 1PB结构化数据。第二个原因是“大数

16、据”关注的更多是用户行为、群体趋势、事件之间的相关性等,而 不仅仅是过去的 KPI,。这就对数据分析平台对数据的分析能力和性能提出了新的要求和挑 战。图 2 未来大数据处理的核心技术8. 总结新型 MPP数据库的价值技术:基于列存储 +MPP架构的新型数据库在核心技术上跟传统数据库有巨大差别,是 为面向结构化数据分析设计开发的,能够有效处理 PB级别的数据量。在技术上为很多行业 用户解决了数据处理性能问题。用户价值:新型数据库是运行在 x-86 PC服务器之上的,可以大大降低数据处理的成本 (1 个数量级 ) 。未来趋势:新型数据库将逐步与 Hadoop生态系统结合混搭使用, 用 MPP处理 PB级别的、 高质量的结构化数据, 同时为应用提供丰富的 SQL和事务支持能力 ;用 Hadoop实现半结构化、 非结构化数据处理。这样可同时满足结构化、半结构化和非结构化数据的处理需求。下图是南大通用正在做的大数据处理平台架构图,将逐步把MPP与 Hadoop 技术融合在一起,为用户提供透明的数据管理平台。图 3 MPP 与 Hadoop 技术融合的产品架构图

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!