大数据分析的十二个解决方案

上传人:suij****uang 文档编号:180529097 上传时间:2023-01-06 格式:DOCX 页数:16 大小:566.56KB
收藏 版权申诉 举报 下载
大数据分析的十二个解决方案_第1页
第1页 / 共16页
大数据分析的十二个解决方案_第2页
第2页 / 共16页
大数据分析的十二个解决方案_第3页
第3页 / 共16页
资源描述:

《大数据分析的十二个解决方案》由会员分享,可在线阅读,更多相关《大数据分析的十二个解决方案(16页珍藏版)》请在装配图网上搜索。

1、当数据以成百上千TB不断增长的时候,我们需要一种独特技术来应对这种前所未有的挑战。大数据分析迎来大时代全球各行各业的组织机构已经意识到,最准确的商务决策来自于事实,而不是凭空臆想。这 也就意味着,他们需要在内部交易系统的历史信息之外,采用基于数据分析的决策模型和技 术支持。互联网点击数据、传感数据、日志文件、具有丰富地理空间信息的移动数据和涉及 网络的各类评论,成为了海量信息的多种形式。极具挑战性的是,传统的数据库部署不能处理数TB数据,也不能很好的支持高级别的数据 分析。在过去十几年中,大规模并行处理(MPP)平台和列存储数据库开启了新一轮数据 分析史上的革命。而且近年来技术不断发展,我们开

2、始看到,技术升级带来的已知架构之间 的界限变得更加模糊。更为重要的是,开始逐步出现了处理半结构化和非结构化信息的 NoSQL等平台。examplecolumn-starestorageprocessinginformationanalysis 闔I齐cd肓 mobi|e | database J 应点 吨Twitter TNoSQL |SQLtabases compression 瞬 憫刖旷虫tabase大数据分析迎来大时代本文中,我们将向大家介绍迄今为止,包括EMC的Greenplum、Hadoop和MapReduce等提供大数据分析的产品。此外,惠普前段时间收购实时分析平台Vertica、

3、IBM独立的基于DB2智能分析系统和Netezza的相关产品。当然,也有微软的Parallel Data Warehouse、SAP旗下公司Sybase的Sybase IQ数据仓库分析工具等。下面,就让我们来了解业界大 数据分析的这十二大产品:1模块化EMC Appliance处理多种数据类型2010年EMC收购了 Greenplum,随后,利用EMC自身存储硬件和支持复制与备份功能 的 Greenplum 大规模并行处理(MPP)数据库,推出了 EMC Greenplum Data Computing Applianee (DCA)。通过与SAS和MapR等合作伙伴,DCA扩大了对Green

4、plum的数据库 支持。支持大数据分析的EMC Applianee今年5月,EMC推出了自己的Hadoop软件工具,而且该公司还承诺,今年秋季发布的模 块化DCA将支持Greenplum SQL/关系型数据库,Hadoop部署也能在同样的设备上得到 支持。借助Hadoop, EMC能够解决诸如网络点击数据、非结构数据等真正大数据分析的 困难。模块化的DCA也能够在同样的设备上支持长期保留的高容量的存储模块,从而满足 监测需求。2.Hadoop和MapReduce提炼大数据Hadoop是一个开放源码的分布式数据处理系统架构,主要面向存储和处理结构化、半结构 化或非结构化、真正意义上的大数据(通常

5、成百上千的TB甚至PB级别数据)应用。网络 点击和社交媒体分析应用,正在极大地推动应用需求。Hadoop提供的MapReduce (和其 他一些环境)是处理大数据集理想解决方案。MapReduce能将大数据问题分解成多个子问题,将它们分配到成百上千个处理节点之上, 然后将结果汇集到一个小数据集当中,从而更容易分析得出最后的结果。rtoulnhiMapReduce simple programming modeigeneralizes com mon patternMapReduce结构图Hadoop可以运行在低成本的硬件产品之上,通过扩展可以成为商业存储和数据分析的替代 方案。它已经成为很多互

6、联网巨头,比如AOL、eHarmony (美国在线约会网站)、易趣、 Facebook、Twitter和Netflix大数据分析的主要解决方案。也有更多传统的巨头公司比如摩 根大通银行,也正在考虑采用这一解决方案。3惠普Vertica电子商务分析今年二月被惠普收购的Vertica,是能提供高效数据存储和快速查询的列存储数据库实时分 析平台。相比传统的关系数据库,更低的维护和运营成本,就可以获得更快速的部署、运行 和维护。该数据库还支持大规模并行处理(MPP)。在收购之后,惠普随即推出了基于x86 硬件的HP Vertica。通过MPP的扩展性可以让Vertica为高端数字营销、电子商务客户(比

7、 如AOL、Twitter、Groupon)分析处理的数据达到PB级。VERTIOXAgilE nvirortrflentThe Anafytics PlatformRGShTmo AnalyticsFastc stTn*iG-tc-Va1u&惠普Vertica实时分析平台其实,早在惠普收购之前,Vertica就推出有包括内存、闪存快速分析等一系列创新产品。 它是首个新增Hadoop链接支持客户管理关系型数据的产品之一,也是首个基于云部署风险 的产品平台之一。目前,Vertica支持惠普的云服务自动化解决方案。4.IBM提供运维和分析数据仓库去年,IBM推出了基于DB2的Smart Analy

8、tic System(图中左侧),那么它为何还要收购 另外的Netezza方案平台呢?因为前者是具备高扩展性企业数据仓库的平台,可以支持成 千上万的用户和各类应用操作。比如,呼叫中心通常拥有大量的雇员需要快速回拨客户的历 史通话记录。Smart An alytic System提供了整合信息的DB2数据库,预配置Cog nos BI 软件模块,可以在IBM Power System(RISC或者X86架构)上运行。1D00r iTM IB* 卜加KM iO0& i s a h4b-pei*ra rmania bufilmsa.m1 営Gapocrty AppliarkL4(曽伸亍冲Fderts

9、ls Ih* apptncG family 4o 打叶她EtnEMmSmart Analytic System 及 NetezzaNetezza致力于为数字化营销公司、电信、和其他挖掘成百上千TB甚至PB级别数据的公 司,提供高可扩展分析应用的解决方案。IBM的Netezza Twin Fin数据仓库设备,支持大规 模并行处理,可以在一天时间内部署完毕。Netezza支持多种语言和方式进行数据库分析, 其中包括Java、C、C+、Python和MapReduce。与此同时,它还支持如SAS, IBM SPSS 使用的矩阵操作方法和R编程语言。IBM Netezza最近增加了一个高容量长期存档设

10、备以 满足更多要求。5.Infobright减少DBA工作量和查询时间In fobright列存储数据库,旨在为数十TB级别数据提供各类分析服务。而这一块也正是甲 骨文和微软SQL Server的核心市场之一。InfoBright还表示,建立在MySQL基础之上的 数据库也提供了另外一种选择,它专门针对分析应用、低成本简化劳动力工作、交付高性能 的服务进行设计。列存储数据库能够自动创建索引,而且无需进行数据分区和DBA调整。相比传统数据库, 它可以减少90%的人工工作量,而且由于其采用高数据压缩,在数据库许可和存储等方面 的开支也可以减少一半。Knoxrl GddQ:也in* 刖昭 doing

11、 Tin怖 yt-af?QueryCerfi pre seedReportThe Knowledge Grid Resolves QueriesKno wledge Grid 查询引擎Inf oBright最新的4.0版本产品,新增了一个Doma in Expert的功能。企业用户可以借此忽 略不断重复的那些数据,比如邮箱地址、URL和IP地址。与此同时,公司还可以增加与呼 叫记录、业务交易或者地理位置信息相关的数据。Kowledge Grid查询引擎则可以帮助过滤 那些静态数据而只关注那些变化的数据。也就是说,它可以帮助节省数据查询的时间,因为 那些无关的数据无需进行解压缩和筛选。6.Kog

12、ni tio提供三倍速度和虚拟多维数据集Kognitio是一家本身不生产硬件产品的数据库厂商,它看到了客户对快速部署的广泛兴趣和 市场需求,推出了在惠普、IBM硬件产品上预配置有WX2数据库的Lakes、Rivers和Rapids 解决方案。Lakes能够以低成本、10TB数据存储和每个模块48个运算核心提供大容量存储服务。电 信或金融服务公司,可以使用这种配置来扫描大量的分支结构的各种信息记录。Rivers则 提供了容量和速度之间的平衡,预配置为2.5TB存储容量,它的每个模块拥有48个运算核 心。而追求查询性能的Rapids,其预配置提供有96个运算核心,每个模块仅仅为1.5TB。 该产品

13、方案主要针对金融公司在算法交易或者其他高性能要求方面的需求。Aduiintag&froiTh DrlaQMEh W呵 yStiftjlKirrSCu.Mpwefn TMrer ajwonKgn-rfie g叩f|曲 p口 Wt, an na站 刖 mini辛層 d oLBbatH nc| qf. w-vatiouwin g f iizttri Itiai S itHl fil CAPuhiIAX.mi1fr“祖来初F. CMlfii世收止d蛊何日VlittialCorti HjMiheuft metLHrribiiui shuIq, th*fi n州Ipi 肝圖wupp口压审匚Dn;p QtA

14、enTrfinrieiflbu: ytiwi iht titaich-sf pliyiicil 匚由rjb点Iwy pfrnainWn iMsir. & u mmc hi ir* CMMWiUbyVXJin-Memcry Data Warehousing and Dta AnalyticsKogn itio基于内存运算的数据仓库和数据分析今年,Kognitio新增了一个虚拟化OLAP风格的Pablo分析引擎。它提供了灵活的、为企 业用户进行分析的解决方案。用户可升级选用WX2构建一个虚拟多维数据集。因此,WX2 数据库中任何一个维度的数据都可在内存中用于快速分析。这种分析的前端接口是我们常见

15、的 Microsoft Excel。7微软SQL Server新增PDW功能今年年初微软发布的SQL Server R2 Parallel Data Warehouse (PDW,并行数据仓库), 一改以往SQL Server部署时间需要花费两年半时间的历史,它可以帮助客户扩展部署数百 TB级别数据的分析解决方案。支持这一产品的包括有合作伙伴惠普的硬件平台。发布之初, 虽然微软官网提供有让利折扣,但PDW售价仍超过13000美元/TB(用户和硬件访问量)。SQLServer ooeSQLServerF 旳 T血匕 &atrl VrtrchLiu-se声 SC?L阳SQL Servers aFt

16、 Ti 乩* D 日悟忡dTJBCHrteSQL Server PDW和很多产品一样,PDW使用了大规模并行处理来支持高扩展性,但微软进入这一市场实属 “姗姗来迟”,而且在一定程度上说,数据仓库分析和内存分析计算市场落下了后腿。目前, 微软寄希望于其整体数据库平台在市场上带来的差异化竞争力。这意味着,所有沿袭了基于 微软平台的数据和数据管理,将被广泛应用在信息集成领域Report ing and An alysisServices,而这一切都基于SQL Server数据库。微软在今年10月12日通过推出Apache Hadoop和相关的SQL Azure Hadoop服务,宣 布进入大数据领域

17、。Azure服务将在2011年底亮相,而相应的本地配套软件要在明年上半 年推出,现在也不清楚微软是否会与其他硬件合作伙伴或者相关大数据设备厂商合作。8甲骨文讲述Engineered Systems的故事甲骨文表示,Exadata (图中左侧)是迄今以来发布的产品中最为成功的产品,自从2008 年推出以来,已经拥有超过1000名客户。而engineered system使得甲骨文11g数据库, 可以支持基于X86的数据处理和磁盘存储层,其闪存缓存也使得可以实现超快速查询处理。它既可应用在任意事务环境中,也可以应用在数据仓库(但不能同时进行)。Exadata的混 合柱状压缩能够实现列存储数据库的某

18、些高效率特点,提供高达10:1的压缩比,而大部分 行存储数据库的平均压缩比为4:1。甲骨文在9月通过宣布Oracle SuperCluster (图中右侧),扩展了 engineered systems产 品家族。它采用了最新的Sun Sparc T-4芯片。SuperCluster支持全机架/半机架配置,而 且用户可以在半机架容量基础上进行扩容。满额配置提供有1200个CPU线程,4TB内存, 97TB至198TB磁盘存储,8.66TB闪存。Ora-clfMachineOra曲W門恫G孰产旷時审甲骨文大数据分析系统设施甲骨文声称,SuperCluster事务处理和数据仓库性能相比传统服务器架

19、构能分别带来10倍 和50倍速度提升。但作为一个专有的Unix机器,甲骨文想通过SuperCluster,在面向x86 硬件的数据仓库部署迁移大潮中力挽狂澜。甲骨文的Exadata和Exalogic都基于x86架构 而且运行Linux系统。在十月召开的Oracle OpenWorld中,甲骨文宣布将新增一个分布式pache Hadoop软件和 相关的大数据设备。甲骨文也计划推出一个独立的基于开源BerkeleyDB产品的NoSQL。9.ParAccel大打列存储、MPP和数据库分析组合拳ParAccel是ParAccel Analytic Database(PADB)的开发厂商 提供快速、选择

20、性查询 和列存储数据库,并基于大规模并行处理优势特点的产品。该公式表示,其平台支持一系列 针对各种复杂、先进应用的工作负载报告和分析。Dl luMEq 细s 斥eZiu r-rHP&frPr聊unnen耳或 EngineOpen /A.P1|jitrgra!ta MartsEk tr emu F*FfDrnrtHlrtC-e fcr Onertlonal Afi-nllaErstcrprie Seale* lor 5brAtcglc and D(sraliwa l lnt-eflhgenc-E ED-W/APWScaFalallltYVP tfilUp 10WBVR 19科予TVP KQ 1

21、7TBUJ? g 92Psub3gmi;nT.tepa: Ftmntal 鼻igiFUciF W 6P-WUrcliilv EIverS-tAglcDecISiliaii口町就雲电电Fait Scasipe-raeicnidl ln(je l|ligc:niCfl-fHigh Parfarn inRjil-Tlrn* Updiftta.Tactical andnjr . 存 vif 屯Teradata平台产品家族Teradata日前宣布了一项Aster Data MapReduce产品的计划,它建立在以往产品同样的硬件平台之上,而且在Teradata和Aster Data之间新增了两种集成方法

22、。通过收购, Teradata打破了在数据仓储业被认为最广泛、最具扩展性的界限。12.1010data提供基于云计算大数据分析正如标题所说,1010data能够提供基于云计算的大数据分析平台。很大数据库平台供应商 提供基于云的沙箱测试和开发环境,但1010data的管理数据库服务,主要针对将整个工作 负载迁移到云的全过程。该服务支持一种提供“丰富而又高级的内置分析功能”,其中包括有预测分析。其一大卖点是 服务包括了数据建模和设计、信息集成和数据转换。文章来源:数据仓库技术中的MPP数据仓库世界里面的massively parallel processing大概定义:MPP是将任务并行的分散到多

23、个服务器和节点上,在每个节点上计算完成后,将各自 部分的结果汇总在一起得到最终的结果。首先MPP必须消除手工切分数据的工作量。这是MySQL在互联网应用中的主要局限 性。另外MPP的切分必须在任何时候都是平均的,不然某些节点处理的时间就明显多于另 外一些节点。对于工作负载是不是要平均分布有同种和异种之分,同种就是所有节点在数据装载的时 候都同时转载,异种就是可以指定部分节点专门用来装载数据(逻辑上的不是物理上),而 其他所有节点用来负责查询。Aster Data和Greenplum都属于这种。两者之间并没有明 显的优势科研,同种的工作负载情况下,需要软件提供商保证所有节点的负载是平衡的。而 异

24、种的工作负载可以在你觉得数据装载很慢的情况下手工指定更多节点装载数据。区别其实 就是自动化和手工控制,看个人喜好而已。另外一个问题是查询如何被初始化的。比如要查询销售最好的10件商品,每个节点都 要先计算出自己的最好的10件商品,然后向上汇总,汇总的过程,肯定有些节点做的工作 比其他节点要多。上面只是一个简单的单表查询,如果是两个表的连接查询,可能还会涉及到节点之间计 算的中间过程如何传递的问题。是将大表和小表都平均分布,然后节点计算的时候将得到的 结果汇总(可能要两次汇总),还是将大表平均分布,小表的数据传输给每个节点,这样汇 总就只需要一次。(其中一个特例可以参考后面给出的Oracle P

25、artition Wise Joi n)。两种 执行计划很难说谁好谁坏,数据量的大小可能会产生不同的影响。有些特定的厂商专门对这 种执行计划做过了优化的,比如EMC Greenplum和HP Vertica。这其中涉及到很多取舍 问题,比如数据分布模式,数据重新分布的成本,中间交换数据的网卡速度,储存介质读写 的速度和数据量大小(计算过程一般都会用临时表储存中间过程)。一般在设计MPP数据仓库的时候都会有一个指导原则用来得到比较好的性能,比如数 据如何分布,customer 一般按照hash分布比较好,而sales_order 一般按照时间分布。所以一般建议在选型做POC的时候,针对你自己需要

26、的典型查询模式和负载进行测试。 一般优化的时候会考虑如下问题: 查询如何初始化?是否有足够的节点用来处理查询?同样的,数据装载的时候是否有足够节点用来装载数据数据装载如何影响查询的,一些列数据库数据装载的时候一般不适合处理查询。数据该复制多少份?把常用的数据分布在更多的节点上显然会减少数据移动的影响 一般用来做高可用的数据能用在查询上嘛?有什么工具能查看查询的执行计划吗?这些功能能帮助你定位性能瓶颈或给出你指导意见 嘛?在开始使用MPP的时候你至少应该明白几件事:不同的数据分布策略到底如何影响你的不同的工作负载模式如何影响你的设计Share Everthing 和 Share Nothing数

27、据仓库里面share everything的代表是Oracle的Exadata。Sybase也从oracle引 入了 rac的套件,但是Sybase本身没有硬件,所有架构上还是跟Exadata有很大区别。 就跟普通所说的RAC和Exadata的在架构上的区别一样。Exadata是用一个储存阵列来存放数据的,跟Oracle 10g里面ASM Disk + Disk是完 全不同的。share nothing 的架构在数据仓库里面更多,Teradata,IBM Netezza, Vertica, Green plum, Aster Data 基本都是。DEIDiE G M S. C OMDataDa

28、ta A-EData F-K这个是比较传统的 share nothing 架构,Sybase IQ, Vertica, Greenplum Community, Aster Data基本都是这种,纯软件上实现的share nothing,里面Disk跟 Disk之间是分开的,Node跟Node之间就是纯的物理上的服务器。Teradata ,IBM Netazza,将来可能出现的 EMC Greenplum + 硬件(现在的 Greenplum DCA不是),HP Vertica +硬件架构图是这样的:CPUl-hslmnljauMixl亍匚KFOCTWTirK uLric(IBM Netazz

29、a Architecture)里面的磁盘阵列是磁盘阵列,互相之间是可以转移数据的,前面讲的几个(Sybase IQ) 这种Disk跟Disk之间是不能传数据的,要交换数据必须通过计算层面发送内部消息。他们之间最大的区别就是在执行计划里面数据重分布会非常不一样,具体这个后面我写 Exadata vs Netezza会详细说。大家也可以参考最下面参考资料给出的连接:Red arroA ik the 客詁IScan=_= Tr.mnnnSerial JoinSum ScjnParallel Joeaedc Sitles(MPP厂商纯软件和软件加硬件的share nothing架构区别)纯软件的MPP

30、理论上的伸缩性可能可以到比较高的级别,但是数据越大可能执行某些 SQL就没有在比较小数据量的时候优秀了。大概的梯度在1P跟200TB左右吧。软件+硬件的伸缩性更好,但是他硬件必须是一开始就预订好的,不能今天加一台机器, 明天加两个磁盘的,里面使用的私有化硬件也都是专门为特殊目的而造的,比如内部通道一 般使用Cisco的InfiniBand,磁盘阵列也基本都是一些高端磁盘(但不是NetAPP那么高 端的),不是简单的任意服务器安装软件就算数据仓库了。各数据仓库MPP的实现Microsoft没有mpp,他的集群甚至都不是线性伸缩的(坑爹啊),但是他08年就收 购了在Linux+Ingres上做MP

31、P的DATAllegro,但是新版还没出来。Sybase IQ最新版15。3做出来MPP,时间是今年7月份才发布,Sybase IQ本身 是共享磁盘,但是它跟RAC的区别是它不共享节点的计算资源。基于Mysql的InfoBright没有MPP,但是非常有名的Percona给了他们一个MPP的 解决方案,完全的share nothing ,不共享磁盘,但是由于Mysql本身并没有parallel query 的能力,所以其实这个MPP计算能力很有限。Vertica, Greenplum, Aster Data 的 MPP 都是纯软件的 share nothing 并且不共 享磁盘的,数据移动和重

32、分布完全是靠计算机集群完成。Teradata, IBM Netezza 以及将来可能出现的 HP Vertica +硬件,Greenplum + EMC 硬件,Aster Data + Teradata硬件都是完全的share nothing,他们共享的是磁盘阵列, 但是部分数据传输和重分布是靠磁盘阵列完成。参考资料节点计算中的数据分配和重新分配问题:Oracle Partition Wise Joiin in g/e ntry/partiti on _wise_j oins 数据库MPP的秘密http:/davidme nnin ger.ve nta n-massively-p arallel-process in g-a nd-database-tech no logy/Oracle Exadatahttp:/www. nFi n-Compared.pdfInfoBright 的 MPP 实现http:/www.infobright.org/Blog/E ntry/shard_query_i nfobright_ope n-source_mpp_solutio n 文章来源:http:/www.dedecms.eom/k no wledge/data-base/ge neralized/2012/0703/2510.html

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!