MPP数据库将支撑起大数据时代

上传人:仙*** 文档编号:88267698 上传时间:2022-05-10 格式:DOCX 页数:5 大小:1.17MB
收藏 版权申诉 举报 下载
MPP数据库将支撑起大数据时代_第1页
第1页 / 共5页
MPP数据库将支撑起大数据时代_第2页
第2页 / 共5页
MPP数据库将支撑起大数据时代_第3页
第3页 / 共5页
资源描述:

《MPP数据库将支撑起大数据时代》由会员分享,可在线阅读,更多相关《MPP数据库将支撑起大数据时代(5页珍藏版)》请在装配图网上搜索。

1、-新型MPP数据库将支撑起大数据时代大数据这个领域过去5年开展很快、热度很高,但是总的来说目前还在起步阶段。本次研讨会我会先谈谈数据,以及大数据对数据处理技术的压力,然后为大家分享一下为什么这几年数据处理技术上的创新很多。1. 数据价值的发现与使用在大数据的4个V中,最显著的特征应该是Value(价值)。不管数据多大,是什么构造,来源如何,能给使用者带来价值的数据是最重要的数据。我跟数据打了20多年的交道,从来没感觉到搞数据的地位有今天这么高。整个社会对数据的认知变了,大数据最大的奉献至少是让社会各个层面开场认识到数据的重要性,包括最高领导和底层的老百姓。目前大家根本达成共识:数据像石油、煤一

2、样是珍贵的资产,其在的价值非常巨大。另外一个显著的奉献无疑是互联网企业对于数据的巧妙使用和价值表达。2. 数据处理技术的回忆互联网的数据“大是不争的事实,现在分析一下数据处理技术面临的挑战。目前除了互联网企业外,数据处理领域还是传统关系型数据库(RDBMS)的天下。传统RDBMS的核心设计思想根本上是30年前形成的。过去30年脱颖而出的无疑是Oracle公司。全世界数据库市场根本上被Oracle,IBM/DB2,Microsoft/SQL Server 垄断,其他几家市场份额都比较小。SAP去年收购了Sybase,也想成为数据库厂商。有份量的独立数据库厂商现在就剩下Oracle和Teradat

3、a。开源数据库主要是MySQL,PostgreSQL,除了互联网领域外,其他行业用的很少。这些数据库当年主要是面向OLTP交易型需求设计、开发的,是用来开发人时机话应用为主的。这些传统数据库底层的物理存储格式都是行存储,比较适合数据频繁的增删改操作,但对于统计分析类的查询,行存储其实效率很低。在这些成熟的数据库产品中,有2个典型特例:一个是Teradata,一个是Sybase IQ。Teradata一开场就使用MPP(Massive Parallel Processing)架构,以软硬一体机的产品方式提供给客户,其定位是高端客户的数据仓库和决策分析系统,Teradata在全世界的客户只有几千个

4、。在这个数据分析高端市场上,Teradata一直是老大,在数据分析技术上Oracle和IBM打不过Teradata。Sybase IQ是一款最早基于列存储的关系型数据库产品,其定位跟Teradata类似,不过是以软件方式销售的。Teradata和Sybase IQ在数据分析应用上的性能其实都比Oracle,DB2等要普遍好。3. 数据增长加速,数据多样化,大数据时代降临如果说现在是大数据时代了,其实是数据来源发生了质的变化。在互联网出现之前,数据主要是人时机话方式产生的,以构造化数据为主。所以大家都需要传统的RDBMS来管理这些数据和应用系统。那时候的数据增长缓慢、系统都比较孤立,用传统数据库

5、根本可以满足各类应用开发。互联网的出现和快速开展,尤其是移动互联网的开展,加上数码设备的大规模使用,今天数据的主要来源已经不是人时机话了,而是通过设备、效劳器、应用自动产生的。传统行业的数据同时也多起来了,这些数据以非构造、半构造化为主,而真正的交易数据量并不大,增长并不快。机器产生的数据正在几何级增长,比方基因数据、各种用户行为数据、定位数据、图片、视频、气象、地震、医疗等等。所谓的“大数据应用主要是对各类数据进展整理、穿插分析、比对,对数据进展深度挖掘,对用户提供自助的即席、迭代分析能力。还有一类就是对非构造化数据的特征提取,以及半构造化数据的容检索、理解等。传统数据库对这类需求和应用无论

6、在技术上还是功能上都几乎束手无策。这样其实就给类似Hadoop的技术和平台提供了很好的开展时机和空间。互联网公司自然就选择能支撑自己业务的开源技术了,反过来又推动了开源技术的快速开展。4. 新的数据处理技术、产品和创新为了应对数据处理的压力,过去十年间在数据处理技术领域有了很多的创新和开展。除了面向高并发、短事务的OLTP存数据库外(Altibase, Timesten),其他的技术创新和产品都是面向数据分析的,而且是大规模数据分析的,也可以说是大数据分析的。在这些面向数据分析的创新和产品中,除了基于Hadoop环境下的各种NoSQL外,还有一类是基于Shared Nothing架构的面向构造

7、化数据分析的新型数据库产品(可以叫做NewSQL),如:Greenplum(EMC收购),Vertica(HP 收购),Asterdata(TD 收购),以及南大通用在国开发的GBase 8a MP Cluster等。目前可以看到的类似开源和商用产品到达几十个,而且还有新的产品不断涌出。一个有趣的现象是这些新的数据库厂商多数都还没有10年历史,而且开展好的根本都被收购了。收购这些新型数据库厂商的公司,比方EMC、HP,都希望通过收购新技术和产品进入大数据处理市场,是新的玩家。SAP除了收购Sybase外,自己开发了一款叫HANA的新产品,这是一款基于存、面向数据分析的存数据库产品。这类新的分析

8、型数据库产品的共性主要是:架构基于大规模分布式计算(MPP);硬件基于*86 PC 效劳器;存储基于效劳器自带的本地硬盘;操作系统主要是Linu*;拥有极高的横向扩展能力(scale out)和在的故障容错能力和数据高可用保障机制;能大大降低每TB数据的处理本钱,为“大数据处理提供技术和性价比支撑。总的来看,数据处理技术进入了一个新的创新和开展高潮,时机很多。这里的主要原因是一直沿用了30年的传统数据库技术遇到了技术瓶颈,而市场和用户的需求在推动着技术的创新,并为此创造了很多时机。在大数据面前,越来越多的用户愿意尝试新技术和新产品,不则保守了,因为大家开场清晰地看到传统技术的瓶颈,选择新的技术

9、才有可能解决他们面临的新问题。现在的总体趋势是在数据量快速增长、多类数据分析并存的需求压力下,数据处理技术朝着细分方向开展,过去30年一种平台满足所有应用需求的时代已经过去。我们必须开场根据应用需求和数据量选择最适合的产品和技术来支撑应用。世界数据处理市场格局正在发生革命性的变化,传统数据库(OldSQL)一统天下变成了OldSQL+NewSQL+NoSQL+其他新技术(流、实时、存等)共同支撑多类应用的局面。在大数据时代,需要的是数据驱动最优平台和产品的选择。5. MPP关系型数据库与Hadoop的非关系型数据库大数据存储技术路线最典型的共有三种:第一种是采用MPP架构的新型数据库集群,重点

10、面向行业大数据,采用Shared Nothing架构,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构高效的分布式计算模式,完成对分析类应用的支撑,运行环境多为低本钱PC Server,具有高性能和高扩展性的特点,在企业分析类应用领域获得极其广泛的应用。这类MPP产品可以有效支撑PB级别的构造化数据分析,这是传统数据库技术无法胜任的。对于企业新一代的数据仓库和构造化数据分析,目前最正确选择是MPP数据库。图 1 MPP架构图第二种是基于Hadoop的技术扩展和封装,围绕Hadoop衍生出相关的大数据技术,应对传统关系型数据库较难处理的数据和场景,例如针对非构造化数据的存储和计算等,

11、充分利用Hadoop开源的优势,伴随相关技术的不断进步,其应用场景也将逐步扩大,目前最为典型的应用场景就是通过扩展和封装Hadoop来实现对互联网大数据存储、分析的支撑。这里面有几十种NoSQL技术,也在进一步的细分。对于非构造、半构造化数据处理、复杂的ETL流程、复杂的数据挖掘和计算模型,Hadoop平台更擅长。第三种是大数据一体机,这是一种专为大数据的分析处理而设计的软、硬件结合的产品,由一组集成的效劳器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析用途而特别预先安装及优化的软件组成,高性能大数据一体机具有良好的稳定性和纵向扩展性。6. 数据仓库的重要性在互联网高速开展之前

12、,无论是电信运营商,还是大银行,保险公司等都花费了巨额资金建立了自己的企业级数据仓库。这些仓库主要是为企业决策者生成企业的一些关键指标(KPI),有的企业有几千、甚至上万KPI报表,有日表,周表,月表等等。这些系统有几个主要特征:技术架构主要基于传统RDBMS + 小型机 + 高端阵列 (就是大家说的IOE),当然数据库有局部DB2,Teradata等。报表根本都是固定的静态报表,产生的方式是T+1 (无法即时产生)。数据量增长相对缓慢,DW的环境变化很少。最终用户只能看汇总的报表,很少能够基于汇总数据做动态drilldown (钻取)。多数领导根本上认为花了很多钱,但看不出是否值得做,有鸡肋

13、的感觉。最后大家对大量的报表都视而不见了。这类系统属于“高富帅,是有钱的企业给领导用的。最后,目前多数企业和部门根本就没有数据仓库。其实大家对传统数据的分析还没做得太好、还没有普及,现在又遇上了大数据。数据仓库对企业是真正有用的,其关键还是如何把数据用好。7. 数据处理技术的核心问题到底是什么?其实我们一直面临着数据处理中最核心、最大的问题,那就是性能问题。性能不好的技术和产品是没有生命力的。数据处理性能问题不是因为大数据才出现,也不会有了大数据技术而消失。处理性能的提升将促进对数据价值的挖掘和使用,而数据价值挖掘的越多、越深入,对处理技术要求就越高。目前的数据仓库只能满足一些静态统计需求,而

14、且是T+1模式;也是因为性能问题,运营商无法有效构造超过PB级别的大数据仓库,无法提供即席查询、自助分析、复杂模型迭代分析的能力,更无法让大量一线人员使用数据分析手段。今天如果做“大数据数据仓库,运营商面临的挑战比上个10年要大的多。目前没有单一技术和平台能够满足类似运营商的数据分析需求。可选的方案只能是混搭架构,用不同的分布式技术来支撑一个超越PB级的数据仓库系统。这个混搭架构主要的核心是新一代的MPP并行数据库集群+ Hadoop集群,再加上一些存计算、甚至流计算技术等。大数据需要多元化的技术来支撑。当前数据处理对企业的挑战越来越大,主要是下面几个原因:第一个原因是数据量已经是上一代的一个

15、数量级了,1个省份级运营商1年就可超越1PB构造化数据。第二个原因是“大数据关注的更多是用户行为、群体趋势、事件之间的相关性等,而不仅仅是过去的KPI,。这就对数据分析平台对数据的分析能力和性能提出了新的要求和挑战。图 2 未来大数据处理的核心技术8. 总结新型MPP数据库的价值技术:基于列存储+MPP架构的新型数据库在核心技术上跟传统数据库有巨大差异,是为面向构造化数据分析设计开发的,能够有效处理PB级别的数据量。在技术上为很多行业用户解决了数据处理性能问题。用户价值:新型数据库是运行在*-86 PC效劳器之上的,可以大大降低数据处理的本钱(1个数量级)。未来趋势:新型数据库将逐步与Hadoop生态系统结合混搭使用,用MPP处理PB级别的、高质量的构造化数据,同时为应用提供丰富的SQL和事务支持能力;用Hadoop实现半构造化、非构造化数据处理。这样可同时满足构造化、半构造化和非构造化数据的处理需求。以下图是南大通用正在做的大数据处理平台架构图,将逐步把MPP与Hadoop技术融合在一起,为用户提供透明的数据管理平台。图 3 MPP与Hadoop技术融合的产品架构图. z

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!