PB级大数据存储技术与分析技术解析44

上传人:沈*** 文档编号:174175259 上传时间:2022-12-14 格式:DOCX 页数:44 大小:398.70KB
收藏 版权申诉 举报 下载
PB级大数据存储技术与分析技术解析44_第1页
第1页 / 共44页
PB级大数据存储技术与分析技术解析44_第2页
第2页 / 共44页
PB级大数据存储技术与分析技术解析44_第3页
第3页 / 共44页
资源描述:

《PB级大数据存储技术与分析技术解析44》由会员分享,可在线阅读,更多相关《PB级大数据存储技术与分析技术解析44(44页珍藏版)》请在装配图网上搜索。

1、PB级大数据存储技术与分析技术解析2013年12月2日目录一、PB级大数据存储技术解析2二、大数据分析系统应规避的问题5三、剖析Hadoop和大数据的七误解8四、6个优秀的开源文件系统助力大数据分析13五、大数据与关系型数据库是否水火不容?NO17六、大数据探讨:如何整理1700亿条Twitter发布信息?21七、畅谈阿里巴巴的大数据梦26八、Twitter利用Storm系统处理实时大数据35一、 PB级大数据存储技术解析对于存储管理人员来说,大数据应该分为大数据存储和大数据分析,这两者的关系是大数据存储是用于大数据分析的。然而,到目前为止这是两种截然不同的计算机技术领域。本文就重点解析一下P

2、B级大数据存储技术,希望对您有所帮助。越来越多的存储产品都在融入大数据的概念和功能,并使之成为产品的一大卖点。但对于从事存储管理的专业人员来说,对“大数据”在具体应用场景中的特点和区别有所了解。大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析关注在最短时间内处理大量不同类型的数据集。在快速变化的技术趋势中有两个特点需要存储管理人员重视起来。第一,大数据分析流程和传统的数据仓库的方式完全不同,其已经变成了业务部门级别和数据中心级别的关键应用。这也是存储管理员的切入点。随着基础平台(分布式计算或其它架构)变得业务关键化,用户群较以往更加地依赖这一平台,这也使得其成为企业安全

3、性、数据保护和数据管理策略的关键课题。第二,通常用于数据分析平台的分布式计算平台内的存储不是你以往面对的网络附加存储(NAS)和存储区域网络(SAN)其通常是内置的直连存储(NAS)以及组成集群的分布式计算节点。这使得管理大数据变得更为复杂,因为你无法像以前那样对这些数据部署安全、保护和保存流程。然而,执行这些流程策略的必要性被集成在管理分布式计算集群之中,并且改变了计算和存储层交互的方式。大数据分析和传统的数据仓库的不同大数据分析中包含了各种快速成长中的技术。因此,简单用某一种技术尝试对其定义,比如分布式计算,会比较困难。不过,这些定义大数据分析的通用性技术可以用如下特征阐述:对于传统数据仓

4、库处理流程效率和扩展性方面限制的感知。将数据,不论是结构化还是非结构化数据从多个数据源汇聚的能力。以及认识到数据的及时性是扩展非结构化数据源的关键,其中包括移动设备,RFID,网络和不断增长的自动化感知技术。传统的数据仓库系统通常从现有的关系型数据库中抓取数据。然而,据估计超过80%的企业数据是非结构化的,即无法关系型数据库管理系统(RDBMS),比如DB2和Oracle完成的数据。一般而言,处于此次讨论的目的,非结构化数据可以看成所有无法简单转化到结构化关系型数据库中的所有数据。而企业现在希望从这些非结构化数据类型中抽取有价值的信息,包括: 邮件和其它形式的电子通讯记录 网站上的资料,包括点

5、击量和社交媒体相关的内容 数字视频和音频 设备产生的数据(RFID,GPS,传感器产生的数据,日志文件等)以及物联网在大数据分析的情况下,查看远多于RDBMS的数据类型十分必要这代表了各种重要的新信息源。并且随着每年非结构化数据存储总量较结构化数据增长率高出10到50倍,从业务角度看这些数据也变得更为重要。更重要的数据需要更专业的人员进行分析。但传统的数据仓库技术对海量非结构化数据的处理根本无法满足大数据的需求。所以,存储管理人员也应该更快的跟随技术潮流,更新自己的技术和知识结构,提高自己对大数据的管理和分析能力。二、 大数据分析系统应规避的问题随着互联网技术的不断发展,数据本身是资产,这一点

6、在业界已经形成共识。越来越多的企业涉足到大数据,但是大数据没有想象中的那么简单,所有大数据的属性,包括数量,速度,多样性等反映了数据库不断增长的复杂性。本文从安装、搭建等方面展示了大数据分析系统的应该规避的系列问题。大数据分析前期要做的事其实,每一个数据都有一个ETL,就是抽取、转化,然后去加载,包括做数据的清洗。如果数据大批量进来的话,有些数据可能是有问题的,马先生举了个例子:比如说,好多地址会写得比较模糊,如果要搜索北京这个词的时候,数据仓库里可能只有一个京字,这些都要统一整理成一个,比如说北京,这样后面分析就会简单,比如山东,有人会输入“鲁”字来进行搜索,而不是山东,这就需要在大数据分析

7、前期做好数据清理工作,做规范化,这样后面的数据分析起来就方便很多。搭建大数据分析系统的注意事项在搭建大数据分析系统时,有哪些需要注意的事项?马老师提到:首先要弄明白你所在企业需要什么样的数据,或者你想得到什么价值,想明白了再去做。因为做数据不像做别的东西,一定明确知道要知道你要干什么,不然这个系统搭的时候会有很多困难,不知道该怎么搭,不知道用什么技术,也不知道数据进去是否在浪费。而目前的情况是:很多企业可能会先把架构搭出来,实际上这数据每天在算,但是不知道这数据带来什么价值,所以更多是一个业务驱动的。再举个例子:比如说中国移动就想挖一挖,到底是哪一个用户老欠费,哪一个用户用得多,用的多的就给他

8、优惠多一点如果他有这个需求,你再把这个需求下转给下面的人,按照这个需求去开发;其次,需要选择适当的技术。比如说你一台机器够用的,不要用两台机器,能够进来报表就不要用交互报表,因为那个都是有技术成本的,并且上线的速度会慢很多。所以建议任何一个企业在搭建数据分析以前,要特别清晰地知道其搭建的需求和目的,选择什么方案,搭它来解决什么问题,针对需求你去做一个数据分析;再次,在没有时时性要求时,你不要自作主张,向老大提这个。因为大公司的批量已经做得非常完美了,可能批量已经带来35%的收入增加了,他要再做时时,再增加5%,而你现在什么都没有。如果说先要做时时,或者先要全部搞出来的话,可能要先一步一部把35

9、%做好,把那个批量先做出来,然后再做时时,这样效果会更好。不要滥搭大数据分析系统技术这个东西都是相通的,没有一项改进都是说完全是重新造出来的,都是在改的,但是它带来的价值不一样,它带来的人的思考,就跟人从零售店买东西和网商这种不一样,但是技术,零售店也会用一些数据库,网上也可能用,要在这个上面做一些转变。马老师谈到,好多国企(这里就不点名),就是为了上项目去上项目,称自己有海量数据。当问他需要搭建的大数据系统是用来干什么,他们的答案很出乎意料:先给搭起来,先存起来,需要的时候再用,就这种思想。其实这个是没有必要的。总结虽然大数据现在炙手可热,大数据分析越来越火爆,很多企业都在试图拥抱大数据技术

10、。但还是应该具体问题具体分析,因为大数据分析系统并非适合所有的企业,一些小型规模的企业在旧系统能满足需求的时候,就不要盲目地去追随潮流,舍弃旧的系统重新搭建,也可能解决了这个小缺口,但是可能会滋生其它更大的问题,这就得不偿失了。三、 剖析Hadoop和大数据的七误解如今,Hadoop成为解决大数据需求的主要投资领域之一,而类似Facebook等互联网巨头在都公开的吹捧Hadoop上取得的成功,同样初入大数据领域的公司也必先着眼于Hadoop。但对于Hadoop技术而言,是一个多维的解决方案,可以通过不同的方式进行部署和使用。下面就了解一些关于Hadoop和大数据的七大错误理念。对于Hadoop

11、技术而言,可以说是开源领域的传奇,然而如今业界还伴随着一些流言,这些流言可能会导致IT高管们带着“有色”的观点去制定策略。如今,数据量在以惊人的速度增长,从IDC分析师报告中2013年数据存储上的增长速度将达到53.4%,AT&T更是声称无线数据的流量在过去的5年内增长200倍,从互联网内容、电子邮件、应用通知、社交消息以及每天接收的消息都在显著的增长,这也是众多大企业都聚焦大数据的原因所在。毫无疑问,Hadoop成为解决大数据需求的主要投资领域之一,而类似Facebook等互联网巨头在都公开的吹捧Hadoop上取得的成功,同样初入大数据领域的公司也必先着眼于Hadoop。但对于Hadoop技

12、术而言,是一个多维的解决方案,可以通过不同的方式进行部署和使用。下面就了解一些关于Hadoop和大数据的七大错误理念:1. 大数据仅仅是容量对大数据来说,除了指体积之外,还经常提到Variety(多样)、Variability(可变)、Velocity(速度)和Value(价值)。关键点在于大数据并不是体积上的增长,更多是未来的实时分析、结构化和非结构化数据的发展,并被企业CIO用于更好的决策。综上所述,并不是只有分析大数据才会获得价值。举个例子,存储和分析1PB的超时限数据的价值可能比不上实时分析1GB的数据,而从“新鲜”的数据上获得价值比解剖过时的数据更具价值。2. 传统SQL不能在Had

13、oop上使用众多厂商在Hadoop上投入精力,布局市场战略时,十分清楚HDFS和MapReduce受限于处理类似SQL语言的能力,这也是Hive、Pig和Sqoop最终得以推广的原因。更多企业通过Hadoop和SQL兼容来管理大量的数据,Pivotal HD是结合SQL并行处理资料库与Hadoop 2.0,针对企业资料分析需求而优化的Hadoop强化版本。3. Hadoop是唯一的新IT数据平台谈到数据平台,大型机在IT投资组合里有是一个长期投资,与ERP、CRM和SCM这些系统一样演变至今。而面对大数据时代,大型机不想被架构遗弃,必须展示在现有IT投资环境中的价值,而许多客户遇到速度、规模和

14、成本的问题,通过vFabric SQLFire这样的内存大数据网络去解决高速数据存取,促进大型机批处理或实时分析报告这些问题。4. 虚拟化会导致性能下降Hadoop最初的设计只是运行实体服务器上,然而随着云计算发展,许多企业都希望能作为云数据中心提供服务。之所以虚拟化Hadoop,企业首先要考虑管理基础设施的扩展性,认识到扩展计算资源,比如虚拟Hadoop节点在数据和计算分开时会对性能有所帮助,否则如果你关闭某个Hadoop节点将丢失上面的所有数据或者添加一个没有数据的空节点。5. Hadoop只可以在数据中心运行对于在SaaS云服务解决方案,许多云服务允许云端运行Hadoop、SQL,这无疑

15、可以帮助企业省下数据中心建造投资的时间和金钱。特别是对于公有云情况下,Java开发者可以从Spring Data for Hadoop以及一些其它的GitHub用例中获益。大数据复杂性6. Hadoop对虚拟化无经济价值Hadoop被很多人认为,尽管在商用服务器上运行,添加一个虚拟层在带来额外支出的同时并不会有额外的价值收益,但其实这个说法并没有考虑到数据和数据分析事实上都是动态的。虚拟化基础设施同样可以减少物理硬件数量,让CAPEX(资本支出)直接等于商用硬件成本,而通过自动以及高效利用共享基础设施同样可以减少OPEX(运营成本)。7. Hadoop不能运行在SAN或NAS上尽管Hadoop

16、在本地磁盘上运行,对于中小型集群一样可以在一个共享的SAN环境下体现良好的性能表现,而高带宽比如10GB以太网、PoE以及iSCSI对性能同样有很好的支持。由此,大数据成为行业追逐的热点,以上七大有关大数据“误解”问题的客观看待。如同不同项目需求不同,Hadoop是一个工具来帮助企业更好的应对大数据问题。无论是面对数据网格的GemFire或SQLFire,还是面向消息的RabbitMQ中间件,一个完整的SaaS解决方案如今比在Hadoop环境更容易实现。四、 6个优秀的开源文件系统助力大数据分析“大数据”作为时下最火热的IT行业的词汇,个人、企业和政府机构之间的互动创造了数据的海洋,我们51C

17、TO传媒在4月26日-27日也将举行2013大数据全球技术峰会,分享大数据技术趋势和最佳实践,是一场重新认识数据价值的技术盛宴。大数据需要大量的储存空间,本文分享了6个优秀的开源文件系统,助力大数据深入分析。大数据在今天吸引了大量关注,个人、企业和政府机构之间的互动创造了数据的海洋,通过有效识别、访问、筛选和分析其中部分数据能带来新的见解和益处。大数据需要大量的储存空间,先进的存储基础设施必不可少,需要能在多台服务器上伸缩自如的存储解决方案。有许多优秀的开源文件系统能用于深入分析大数据,其中包括:QFSQuantcast File System (QFS) 是一个高性能、容错、分布式的文件系统

18、,其开发是用于支持 MapReduce 处理或者需要顺序读写大文件的应用。HDFSHadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low- cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming access)文件系统中的数据。HDFS开始是为

19、开源的apache项目nutch的基础结构而创建,HDFS是hadoop项目的一部分,而 hadoop又是lucene的一部分。CephCeph是加州大学Santa Cruz分校的Sage Weil(DreamHost的联合创始人)专为博士论文设计的新一代自由软件分布式文件系统。自2007年毕业之后,Sage开始全职投入到Ceph开 发之中,使其能适用于生产环境。Ceph的主要目标是设计成基于POSIX的没有单点故障的分布式文件系统,使数据能容错和无缝的复制。2010年3 月,Linus Torvalds将Ceph client合并到内 核2.6.34中。IBM开发者园地的一篇文章探讨了Cep

20、h的架构,它的容错实现和简化海量数据管理的功能。LustreLustre是一个大规模的、安全可靠的,具备高可用性的集群文件系统,它是由SUN公司开发和维护的。该项目主要的目的就是开发下一代的集群文件系统,可以支持超过10000个节点,数以PB的数据量存储系统。GlusterFSGlusterFS 是一个集群的文件系统,支持 PB 级的数据量。GlusterFS 通过 RDMA 和 TCP/IP 方式将分布到不同服务器上的存储空间汇集成一个大的网络并行文件系统。PVFSPVFS 是一个高性能、开源的并行文件系统,主要用于并行计算环境中的应用。特别为超大数量的客户端和服务器端设计。模块化结构设计,

21、可轻松的添加新的硬件和算法支持。PVFS 侧重高性能访问大数据集,包含一个服务器进程和客户端开发库,完全基于用户级代码编写。特征: 基于对象的设计思路 Optimized for regular strided access 独立数据和元数据的存储 优化的 MPI-IO 支持 多种网络支持 无状态的服务器 用户级的实现方案 系统级接口 可在很多 Linux 版本上构建 支持多数平台,包括 IA32, IA64, Opteron, PowerPC, Alpha, and MIPS 五、 大数据与关系型数据库是否水火不容?NO在大多数IT观察家的眼里,大数据通常是指那些规模大到难以用传统关系型数据

22、库处理的数据集。但随着大数据时代的到来,越来越多的数据库并非建筑在“关系”之上,且具有更高的可扩展性。那么,大数据与关系型数据库是否水火不容?MariaDB的创始人之一Monty Widenius驳斥了这个观点。一直以来,人们都认为大数据和NoSQL数据库是天作之合,而关系型数据库则被打上OUT的标签,但有一位数据库老兵并不这么认为。在大多数IT观察家的眼里,大数据通常是指那些规模大到难以用传统关系型数据库处理的数据集。虽然今天关系模型和SQL依然是数据库世界的统治者,但随着大数据时代的到来,越来越多的数据库并非建筑在“关系”之上,且具有更高的可扩展性。那么,大数据时代关系型数据库何去何从?最

23、近MySQL开源数据库最初版本的开发者,以及MySQL社区开发分支版本MariaDB的创始人之一Monty Widenius接受ReadWrite的采访,他驳斥了大数据与SQL数据库水火不容的常见观点。以下是对Widenius的采访实录,摘录如下:问:您能NoSQL和大数据的历史吗?为什么它们会成为人们热议的话题?答:所谓的“新NoSQL运动”的起源来自三年前Twitter一位员工的博客,此人在博客中称MySQL不够好,他们需要更好的数据库技术,例如Cassandra。其实Twitter当时在MySQL上遇到麻烦是因为他们没有正确使用。奇怪的是,Twitter给出的问题解决方法在Cassand

24、ra和MySQL里都能轻松实现。这篇文章的原文已经找不到了,但可以参考这篇随后的文章“MySQL将被Cassandra替代”。目前的情况是这样:三年过去了,Twitter还在用MySQL存储它最宝贵的资产推文。Cassandra最终也没能取代了MySQL。NoSQL流行的原因是,与SQL相比,NoSQL非常容易上手,你不需要任何设计就能开始使用它。但这也是有代价的,很快你就会发现对数据失去了控制(如果你不是足够小心的话)。所以,大多数NoSQL解决方案的优点(在MariaDB出现之前)是: 快速访问数据(只要你舍得把文件都丢进内存) 快速复制/多个节点的数据扩展 弹性架构(可以快速增加新的列)

25、问:大数据(技术)能帮人们解决什么问题?更高性能和更灵活的架构是推动NoSQL发展的两大动力。问:你个人怎么看待大数据,有什么预测吗?我觉得大多数看好NoSQL的用户都是跟风者。大多数公司根本没有像Facebook和Google那么大规模的数据,而且他们其实也根本就支付不起优化和持续开发数据库所需的专家人力成本。SQL不会消亡。NoSQL无法取代它。因为几乎所有人都需要关系型数据库来管理数据。眼下NoSQL也有其用武之地。我认为未来将更多的是SQL和NoSQL的混合应用。问:为什么人们还在使用NoSQL?主要有哪些原因?因为NoSQL上手很容易。你甚至不需要学习SQL,使用前也不需要定义数据库

26、架构。当然也有一些人使用NoSQL是因为比SQL的扩展性更好。问:SQL在性能上能超过NoSQL吗?SQL哪些方面由于NoSQL?只要数据不能载入内存,SQL通常性能都超过NoSQL。同样的,NoSQL相比SQL还存在很多不足之处,例如大多数NoSQL方案都是为单一键值访问(single key access)优化的。对于更复杂的事情来说,你必须编写专门的程序,而且性能与SQL无法相比,尤其是那些需要自动响应用户请求的服务(大多数网站提供的服务)在单机上的性能表现,NoSQL通常都不是SQL的对手。在集群环境中,当所有数据都载入内存,NoSQL在键值查找的速度上通常会比SQL快。六、 大数据探

27、讨:如何整理1700亿条Twitter发布信息?截至目前,美国国会图书馆所保存的Twitter信息数量已达到1700亿条、存储文件体积更到达133TB-由于每一条信息都已经在这套社交网络中分享及转载,这么庞大的数据改如何整理?随着社交网络蒸蒸日上,美国国会图书馆不得不面对达到133TB之巨的Twitter发布信息文件;好在经过实践,他们已经找到了管理此类数据的办法。截至目前,美国国会图书馆所保存的Twitter信息数量已达到1700亿条、存储文件体积更到达133TB-由于每一条信息都已经在这套社交网络中分享及转载,图书馆的技术团队需要想办法为用户拿出切实可行的检索方案。在现阶段的项目报告中,图

28、书馆管理人员指出目前市场上提供的此类大数据管理工具无法解决他们的实际困难。很显然,现有技术还只能满足奖学金信息等规模化数据集的访问需求,而在创建及发布此类数据方面则表现乏力,馆方表示。由于此类任务的复杂性及对资源的极高要求,私营部门尚无法拿出具备合理性价比的商业方案。如果私营企业都难以搞定大数据管理工作,那么预算拮据、全靠政府资金支持的非营利性机构-包括全球最大的图书馆在内-又该如何解决这一难题?要拿出一套实用、经济、便捷且有能力处理1700亿条Twitter信息的索引系统无异于痴人说梦。Twitter曾签署一份协议,允许美国国会图书馆访问该社交媒体网站中所发布的全部更新信息。馆方官员坦言,他

29、们必须建立一套帮助研究人员访问社交平台数据的系统,因为随着网络化交流趋势的不断普及,以期刊及出版物为代表的传统沟通方式已经被逐渐取代。国会图书馆杰弗逊大厦在Twitter刚刚诞生的2006年到2010年间,首批数据转储文件为20TB,其中囊括了210亿条Twitter信息(包括用户当前位置及消息描述等元数据)。最近,馆方刚刚迎来第二批转储数据-总体而言,这部分副本压缩文件总体积为133.2TB。在此之后,图书馆将与Gnip公司展开合作,以小时为单位收集全部Twitter发布信息。2011年2月公布的统计数字显示,当时每天经由Twitter发布的信息约为1.4亿条;而到去年10月,这一数字已经增

30、长到约5亿条。研究人员强烈要求国会图书馆尽快开放数据访问功能-馆方称已经接到超过四百次此类请求。该项目由图书馆与Twitter双方并行实施,将为用户提供Twitter使用的历史记录,能够逐项列出他们通过账户发布过的每条信息。美国国会图书馆在大数据管理方面算得上经验丰富:根据工作人员的说法,馆方自2000年开始就一直在为政府网站进行数据归档整理工作,数据总量超过300TB。然而Twitter的出现令归档工作陷入僵局,因为馆方实在找不到合适的办法保证信息易于搜索。如果继续使用馆方长期以来一直所倚仗的磁带存储方案,那么仅查询一条2006到2010之间的Twitter信息就需要耗费最多24个小时-而这

31、批转储数据还仅占数据总量的八分之一。Twitter信息之所以难于整理,一方面是由于数据量过于庞大,另一方面则是因为每天都会有新数据不断加入进来,而这种增长速度仍在不断提升,官方指出。此外,Twitter信息的种类也越来越多样。普通Twiiter信息、利用软件客户端发出的自动回复信息、手动回复信息、包含链接或者图片的信息等等,这一切让我们无从下手。寻找解决方案的道路是曲折的。国会图书馆已经开始考虑分布式及并行计算方案,但这两类系统实在太过昂贵。要想真正实现搜索时间的显著降低,我们需要构建起由数百乃至数千台服务器组成的庞大基础设施。这对于我们这种毫无商业收益的机构来说成本过高、根本不切实际。那么馆

32、方到底该如何应对?大数据专家们给出了一系列参考方案。就国会图书馆的情况而言,技术团队也许最好进行分类处理的方式,即利用一款工具处理数据存储、一款工具负责检索工作、另一款则用于回应查询请求,Mark Phillips指出。他既在Basho担任社区及开发推广主管,同时也是开源数据库工具Raik的创始人(该工具在键-值存储方面便利而极具可扩展性)。大数据管理工具已经构建起欣欣向荣的新兴行业,用户可以根据不同的使用需求与预期成本选择专有软件或者开源方案。国会图书馆的技术人员所面临的最大问题在于,他们该如何开始整套系统的创建和管理工作。如果馆方希望走开源的道路,那么可选的数据库创建及管理工具可谓百花齐放

33、-从Hadoop集群到专门针对高输入/输出读写操作的Greenplum数据库可谓应有尽有。二者还能够与Apache Solar-一款开源搜索工具-加以整合。开源为开发者们指明了一条免费获取源代码的光明道路,能够在商业硬件上构建起理想中的系统成品,然而采用开源也意味着我们需要在后端开发工作中投入大量人力物力。当然,国会图书馆也完全可以走更昂贵但更省心的专有软件道路,从甲骨文或者SAP这些业界巨头那里直接采购数据库产品。不过无论采取哪种方式,Twitter项目中那硕大无朋的数据总量仍然难以攻克。不过Phillips的态度给了我们一定信心。他指出,虽然Twitter目前的数据量已经达到133TB且仍

34、处于快速增长之中,但Basho公司已经接触过数据量达到PB级别的客户,并且在自己的平台上顺利完成了任务。只要国会图书馆能够追踪并总结出数据库容量每个月或每个季度的增长幅度,并根据结果为数据存储配备充足的硬件资源,那么Basho的数据库软件将有能力解决馆方的难题。那么使用云方案可不可行呢?从理论上讲,国会图书馆可以采用以Amazon Web Services为代表的公共云资源保存这些数据,而且随着Twitter信息总量的不断增长,AWS会自动处理必要的硬件扩容工作。然而在Basho公司工程师Seth Thomas看来,这种方案的长期性价比值得商榷。由于馆方显然打算永久保存这些数据,所以混合式架构

35、可能更具经济效益。也许更好的办法是将数据保存在本地,然后利用云服务实现分析功能。如此一来,馆方只需根据搜索量为响应请求所投入的动态资源支付费用即可,而终端系统也只需处理与请求量相对应的工作负载。无论如何,国会图书馆已经下决心将这些Twitter信息纳入检索体系。而身为普通用户,我们要注意的则是-只要更新Twitter,信息就会被记录下来。七、 畅谈阿里巴巴的大数据梦2012年11月11日,各大电商风云大战,淘宝双十一总交易金额191亿,订单1亿零580万笔。可以看到,从数据中掘金,已经成为各大互联网公司的共识。但在这个即将到来的大数据时代,这些公司具体将如何推进呢?本文带你一起畅谈阿里巴巴的大

36、数据梦。“为了迎接即将到来的大数据时代,各大互联网公司都在争分夺秒。阿里巴巴在公布大数据分享平台之后的半年中,也全面启动了攻势。但即使是这个行业的先行者,离大数据时代也还有不小的距离。”刚刚过去的2012年,秦予有个很大的遗憾,就是没能招聘到自己想要的数据科学家,浪费了公司给的招人名额。他是支付宝用户价值创新中心的负责人。这个中心是支付宝大数据业务的核心部门。阿里巴巴2012年的进人指标只有200个,具体到支付宝公司,基本是只出不进,只有秦予所在的部门得到了难得的两个进人名额。但她只招到了一个合适的。事实上,各大互联网公司都在寻找这样的人。腾讯网络媒体事业群总裁刘胜义2012年年中就公开表示:

37、随着用户各类数据的累积,大数据时代已经来临。腾讯各大产品线中都拥有自己的数据挖掘团队。而腾讯最新财报显示,QQ用户数接近8亿人,活跃用户数近2亿人。阿里集团2012年7月10日就已宣布,设立首席数据官岗位(CDO),负责推进“数据分享平台”战略。同日,阿里发布“聚石塔”平台,为天猫、淘宝平台上的电商及电商服务商等提供数据云服务。阿里巴巴集团表示,如何挖掘、分析和运用这些数据,并和全社会分享,是这个战略的核心所在。阿里巴巴是年交易额过万亿元的中国最大的电子商务平台,目前有两万人左右,其中近千人从事数据业务工作。可以看到,从数据中掘金,已经成为各大互联网公司的共识。但在这个即将到来的大数据时代,这

38、些公司具体将如何推进呢?“离大数据时代还有不小距离”秦予要找的并不是一般的数据分析师。“国内不缺数据挖掘人才,但很难找到数据科学家。”秦予对南方周末记者说,秦予的团队有7个人,他们在支付宝内部被称为“数据科学家”。一般的数据分析师是根据支付宝的各种数据进行分析,给公司决策层和各个业务部门提供咨询支持。这也是目前很多公司都设有的商业智能部的主要职能。但数据科学家们做的事情是开发出具体可以销售的商用化的大数据产品。所谓大数据,一般是1000T以上的数据,如果按照一般机器配置,相当于400台到500台电脑。对这些数据信息的商业化开发就是大数据产业链。大数据时代一书中提到,未来,数据将会像土地、石油和

39、资本一样,成为经济运行中的根本性资源。数据科学家被认为是下一个十年最热门的职业。而大数据跟个人最为密切的关系是对隐私的可能侵入。比如,亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,微博似乎对我们和我们朋友的关系无所不知,QQ圈子能给你推荐你不愿意再见面的某个女生的照片和动态信息。秦予是从美国归国的计算机模拟博士后,在摩根大通和汇丰银行工作过多年,2010年加入支付宝公司,负责支付宝和淘宝集市的大数据业务。支付宝公司拥有中国仅次于银行业的个人数据信息。“阿里巴巴有海量的数据,对于做大数据的人来说,阿里巴巴是中国最好的平台,很吸引人。因为我的金融背景所以选择支付宝。”秦予对南方周末记者

40、说。回国进入大数据行业之后,秦予参加了很多大数据的论坛和研讨会,她最大的体会是,看到的新东西很少。“别说大数据,连小数据都很少。现在很多公司说的大数据,大都是数据的搜集和整理。这是底层的工作。”秦予说,“中国离大数据时代还有不小距离。”即使是作为国内大数据业务的先行者阿里巴巴,其大数据业务发展也依然是分散在各个子公司,并在2012年下半年才开始推出少量的商用产品。 “从人出发,先去找人”支付宝曾经在八年前公司成立第二天就建立了数据部门,但真正有大数据业务,是在2010年的事情。正是那时候,支付宝从招商银行信用卡中心招来一批专业的金融人才。秦予也是那时候加入支付宝的。“金融行业的大数据业务已经很

41、成熟了。”秦予说。支付宝的数据科学家每天做的工作就是,把客户分成50个族群进行研究。比如,细分出都市轻熟男群体,这个群体的特征是每次买的不贵,均价七八十元,收入中等,但很喜欢在网上买东西。还有一个族群被称作“千金美少女”,其特征是收入并不高,但家里有钱,买得多,买得贵。按照分群研究的思路,秦予的团队把淘宝、天猫、支付宝和聚划算的用户做系统研究,通过观察他们喜欢看什么媒体,上什么网,来“生动地”知道用户是个怎样的人,进而推荐商品供用户购买。能识别用户之后,在写商品推荐文字的时候,不再是过去那样千篇一律地使用“亲”作为开头。“今天很多网站犯的错误就是,根据个人购买记录,推荐一个类似的产品。其实用户

42、很可能买过了。用户要的是你给他推荐一个跟他相似的人买的东西。”秦予对南方周末记者说,以前的数据研究思路是从产品出发,大数据时代是从人出发,先去找人。支付宝发展大数据业务,目前主要是为内部服务。比如,过去支付宝很重视新客户的获取,但后来发现开账户的人多,关账户的人也不少,通过数据分析,支付宝建立了一个流失预警模型,预测每一个人未来三个月是否会离开支付宝,并对潜在的流失用户做一些唤醒。“支付宝是准金融行业,数据比较敏感,涉及用户隐私,还没有到开放的阶段。”秦予对南方周末记者说,支付宝非常忌讳提供商用化产品给商户,很多合作方惦记着的是支付宝的数据,但这是支付宝的高压线。“支付宝发展大数据的目的,跟淘

43、宝和天猫有点偏差。我们更多地是为内部服务,淘宝和天猫更多地强调商业化。”秦予对南方周末记者说,阿里巴巴集团的大数据业务商用主要是淘宝平台的几个公司在推进。 “数据分享平台”战略淘宝平台的数据大概可以分成三块,一是离线的数据,比如什么地方的人最爱吃大闸蟹。另外一些在线数据,主要是图片,淘宝一些大的卖家都把图片存在淘宝里面。还有一些信息是用户的淘宝收藏夹。2010年3月,淘宝宣布将面向全球首度开放数据,并制定了两条大原则:数据分层次开放;涉及消费者个人或者企业隐私的数据绝对保护。淘宝的数据开放一是对公众的免费信息,比如推出类似于宏观经济数据的“淘宝指数”。商家可以根据以往的销售信息和“淘宝指数”进

44、行生产、库存决策。对于大众来说,淘宝的数据发布就像是统计局和价格监测机构的功能,淘宝指数相当于行业和宏观经济的各项指标。作为针对企业的数据开放的商用产品,淘宝推出了数据魔方产品,通过淘宝数据魔方平台,商家可以直接通过数据魔方产品获取行业宏观情况、自己品牌的市场状况、消费者行为情况等,但是不能获得竞争对手的数据。2011年4月,数据魔方正式上线。在“店小二”的推广下,林氏木业成为第一批使用者。林氏木业是一家完全依靠互联网平台销售家具的电商公司。该公司一位市场推广人员对南方周末记者介绍了数据魔方的具体运用过程:依据数据魔方关于热词的各项数据变化,及时调整优化商品标题,提高宝贝排名,进而获取更多流量

45、,提高销量。以销售面膜为主的素野天猫旗舰店的运营经理陈林告诉南方周末记者,素野选择数据魔方专业版本,支付3600元/年的费用,除魔方外,还可以使用量子恒道(淘宝官方推出的一款免费数据分析工具)。“数据魔方带来的更多是虚的概念,对流量、销售额这种具体指标意义不大。”陈林说。2011年6月,淘宝一分为三,变成天猫、淘宝集市和一淘网。这之后,淘宝系的大数据发展的主要任务放到了商家已经形成了付费习惯的天猫平台。目前天猫的主打大数据商用产品是聚石塔。2012年7月,阿里巴巴集团的“聚石塔”正式发布,“数据分享平台”战略全面展开。聚石塔是阿里巴巴首次联合全集团大数据力量打造的一款大数据商用产品。其中,天猫

46、及淘宝网主要负责寻找合作伙伴,发展商家,阿里云负责提供云主机,万网负责客户服务。同时,阿里巴巴B2B公司CEO陆兆禧出任集团首席数据官岗位,向CEO马云直接汇报。马云在聚石塔发布的时候宣布了阿里集团未来新战略:平台、金融、数据。聚石塔提供数据存储、数据计算两类服务。根据官网上的指导价格,若需要内存为1200M、50G容量的数据存储服务,优惠价为6090元/年;如果购买英特尔双核处理器、内存4G、硬盘500G、带宽5M的弹性托管服务,价格约在7700元/年。广州衣酷服饰有限公司的运营总监敬小虎对南方周末记者表示,他们公司是2012年9月开始使用聚石塔服务的,正好赶上“双十一”大促销,两天之内发完

47、了所有的货,总共3万多票。他负责该公司在天猫上的店铺皓盾天猫旗舰店的运营。“没有这个软件,半个月都发不完这些货。”敬小虎对南方周末记者说,如果按照2011年没有加入聚石塔时候的“双十一”销售情况,光把订单人工下载下来就花费了三五天时间。而且还出现过很多漏单和重复下载问题。不过,敬小虎表示,如果店铺一天的销量能做到500票以上,购买聚石塔服务比较划算,否则软件买下来除了应对“双十一”这样的大促销,基本就闲置着。 平台后的产业链阿里巴巴公布的信息显示,自2012年7月10日聚石塔发布以来,已有十多万的商家入驻。聚石塔的订单覆盖率,10月中旬的数字是20%。2012年“双十一”购物狂欢节,是对天猫大

48、数据发展的一次检验。据天猫官方数据显示,狂欢节大促当天,聚石塔内系统处理的订单超过天猫总量的20%,比平时增长20倍。又一城公司是首批进入聚石塔服务器项目的软件IT企业。又一城公司的销售人员赖活龙对南方周末记者表示,有ERP系统的商家可以直接找天猫,没有ERP系统的商家,只能找像又一城这样跟天猫有合作的软件商,让软件商帮忙接入聚石塔服务。又一城和阿里巴巴的合作模式是,又一城基于聚石塔开发的软件,对接淘宝和天猫等阿里系公司的后台系统,包括订单信息、商品信息、会员信息、财务信息、物流信息和库存信息。赖活龙对南方周末记者透露,最近半年,他的重点一直是推销聚石塔产品,一开始很多商家听到是推销软件产品的

49、电话就会按掉电话,现在的情况好多了,不少商家主动打电话来了解情况。“这跟天猫的宣传很有关系,另外就是双十一检验了产品的价值。”赖活龙说。赖活龙也承认,商家加入聚石塔之后,最直观的改变是订单处理的效率提高了,以前从淘宝平台下载订单,一分钟能下载200单,现在至少2000单。但销售额并没有太大改变。越来越多的商家被迫参与到大数据产品的购买中来。因为促销活动越来越多,参加的话,IT系统往往跟不上,造成错单配送等问题,中差评接踵而至,动态评分直线下降,销量跟着下降,所以只能是购买聚石塔服务。不参加的话,没有流量,没有销售额。“如果商家不跟着淘宝走,就会受到冷落,你进来了,碰到双十一这样的活动,天猫会看

50、你是否加入了聚石塔,如果没有加入,你报名的资质能否通过是个大问题。”赖活龙说。八、 Twitter利用Storm系统处理实时大数据Storm 是一个开源的、大数据处理系统,与其他系统不同,它旨在用于分布式实时处理且与语言无关。了解 Twitter Storm、它的架构,以及批处理和流式处理解决方案的发展形势。Hadoop(大数据分析领域无可争辩的王者)专注于批处理。这种模型对许多情形(比如为网页建立索引)已经足够,但还存在其他一些使用模型,它们需要来自高度动态的来源的实时信息。为了解决这个问题,就得借助 Nathan Marz 推出的 Storm(现在在 Twitter 中称为 BackTyp

51、e)。Storm 不处理静态数据,但它处理预计会连续的流数据。考虑到 Twitter 用户每天生成 1.4 亿条推文 (tweet),那么就很容易看到此技术的巨大用途。但 Storm 不只是一个传统的大数据分析系统:它是复杂事件处理 (CEP) 系统的一个示例。CEP 系统通常分类为计算和面向检测,其中每个系统都可通过用户定义的算法在 Storm 中实现。举例而言,CEP 可用于识别事件洪流中有意义的事件,然后实时地处理这些事件。Nathan Marz 提供了在 Twitter 中使用 Storm 的大量示例。一个最有趣的示例是生成趋势信息。Twitter 从海量的推文中提取所浮现的趋势,并在

52、本地和国家级别维护它们。这意味着当一个案例开始浮现时,Twitter 的趋势主题算法就会实时识别该主题。这种实时算法在 Storm 中实现为 Twitter 数据的一种连续分析。Storm 与传统的大数据Storm 与其他大数据解决方案的不同之处在于它的处理方式。Hadoop 在本质上是一个批处理系统。数据被引入 Hadoop 文件系统 (HDFS) 并分发到各个节点进行处理。当处理完成时,结果数据返回到 HDFS 供始发者使用。Storm 支持创建拓扑结构来转换没有终点的数据流。不同于 Hadoop 作业,这些转换从不停止,它们会持续处理到达的数据。大数据实现Hadoop 的核心是使用 Ja

53、va? 语言编写的,但支持使用各种语言编写的数据分析应用程序。最新的应用程序的实现采用了更加深奥的路线,以充分利用现代语言和它们的特性。例如,位于伯克利的加利福尼亚大学 (UC) 的 Spark 是使用 Scala 语言实现的,而 Twitter Storm 是使用 Clojure(发音同 closure)语言实现的。Clojure 是 Lisp 语言的一种现代方言。类似于 Lisp,Clojure 支持一种功能性编程风格,但 Clojure 还引入了一些特性来简化多线程编程(一种对创建 Storm 很有用的特性)。Clojure 是一种基于虚拟机 (VM) 的语言,在 Java 虚拟机上运行

54、。但是,尽管 Storm 是使用 Clojure 语言开发的,您仍然可以在 Storm 中使用几乎任何语言编写应用程序。所需的只是一个连接到 Storm 的架构的适配器。已存在针对 Scala、JRuby、Perl 和 PHP 的适配器,但是还有支持流式传输到 Storm 拓扑结构中的结构化查询语言适配器。Storm 的关键属性Storm 实现的一些特征决定了它的性能和可靠性的。Storm 使用 ZeroMQ 传送消息,这就消除了中间的排队过程,使得消息能够直接在任务自身之间流动。在消息的背后,是一种用于序列化和反序列化 Storm 的原语类型的自动化且高效的机制。Storm 的一个最有趣的地

55、方是它注重容错和管理。Storm 实现了有保障的消息处理,所以每个元组都会通过该拓扑结构进行全面处理;如果发现一个元组还未处理,它会自动从喷嘴处重放。Storm 还实现了任务级的故障检测,在一个任务发生故障时,消息会自动重新分配以快速重新开始处理。Storm 包含比 Hadoop 更智能的处理管理,流程会由监管员来进行管理,以确保资源得到充分使用。Storm 模型Storm 实现了一种数据流模型,其中数据持续地流经一个转换实体网络(参见 图 1)。一个数据流的抽象称为一个流,这是一个无限的元组序列。元组就像一种使用一些附加的序列化代码来表示标准数据类型(比如整数、浮点和字节数组)或用户定义类型

56、的结构。每个流由一个惟一 ID 定义,这个 ID 可用于构建数据源和接收器 (sink) 的拓扑结构。流起源于喷嘴,喷嘴将数据从外部来源流入 Storm 拓扑结构中。图 1. 一个普通的 Storm 拓扑结构的概念性架构接收器(或提供转换的实体)称为螺栓。螺栓实现了一个流上的单一转换和一个 Storm 拓扑结构中的所有处理。螺栓既可实现 MapReduce 之类的传统功能,也可实现更复杂的操作(单步功能),比如过滤、聚合或与数据库等外部实体通信。典型的 Storm 拓扑结构会实现多个转换,因此需要多个具有独立元组流的螺栓。喷嘴和螺栓都实现为 Linux? 系统中的一个或多个任务。可使用 Sto

57、rm 为词频轻松地实现 MapReduce 功能。如 图 2 中所示,喷嘴生成文本数据流,螺栓实现 Map 功能(令牌化一个流的各个单词)。来自 “map” 螺栓的流然后流入一个实现 Reduce 功能的螺栓中(以将单词聚合到总数中)。图 2. MapReduce 功能的简单 Storm 拓扑结构请注意,螺栓可将数据传输到多个螺栓,也可接受来自多个来源的数据。Storm 拥有流分组 的概念,流分组实现了混排 (shuffling)(随机但均等地将元组分发到螺栓)或字段分组(根据流的字段进行流分区)。还存在其他流分组,包括生成者使用自己的内部逻辑路由元组的能力。但是,Storm 架构中一个最有趣

58、的特性是有保障的消息处理。Storm 可保证一个喷嘴发射出的每个元组都会处理;如果它在超时时间内没有处理,Storm 会从该喷嘴重放该元组。此功能需要一些聪明的技巧来在拓扑结构中跟踪元素,也是 Storm 的重要的附加价值之一。除了支持可靠的消息传送外,Storm 还使用 ZeroMQ 最大化消息传送性能(删除中间排队,实现消息在任务间的直接传送)。ZeroMQ 合并了拥塞检测并调整了它的通信,以优化可用的带宽。Storm 示例演示现在让我们通过实现一个简单的 MapReduce 拓扑结构的代码(参见 清单 1),看一下 Storm 示例。这个示例使用了来自 Nathan 的 Storm 入门

59、工具包(可从 GitHub 获取)(参见 参考资料 获取链接)的巧妙设计的字数示例。此示例演示了 图 2 中所示的拓扑结构,它实现了一个包含一个螺栓的 map 转换和包含一个螺栓的 reduce 转换。清单 1. 为图 2 中的 Storm 构建一个拓扑结构1. TopologyBuilderbuilder=newTopologyBuilder(); 2. builder.setSpout(spout,newRandomSentenceSpout(),5); 3. builder.setBolt(map,newSplitSentence(),4) 4. .shuffleGrouping(spo

60、ut); 5. builder.setBolt(reduce,newWordCount(),8) 6. .fieldsGrouping(map,newFields(word); 7. Configconf=newConfig(); 8. conf.setDebug(true); 9. LocalClustercluster=newLocalCluster(); 10. cluster.submitTopology(word-count,conf,builder.createTopology(); 11. Thread.sleep(10000); 12. cluster.shutdown();清

61、单 1(添加了行号以供引用)首先使用 TopologyBuilder 声明一个新拓扑结构。接下来在第 3 行,定义了一个喷嘴(名为 spout),该喷嘴包含一个 RandomSentenceSpout。RandomSentenceSpout 类(也就是 nextTuple 方法)发出 5 个随机句子的其中一个作为它的数据。setSpout 方法末尾的 5 参数是一个并行性提示(或要为此活动创建的任务数)。在第 5 和 6 行。我定义了第一个螺栓(或算法转换实体),在本例中为 map(或 split)螺栓。这个螺栓使用 SplitSentence 令牌化输入流并将其作为输出的各个单词发出。请注意

62、,第 6 行使用了 shuffleGrouping,它定义了对此螺栓(在本例中为 “spout”)的输入订阅,还将流分组定义为混排。这种混排分组意味着来自喷嘴的输入将混排 或随机分发给此螺栓中的任务(该螺栓已提示具有 4 任务并行性)。在第 8 和 9 行,我定义了最后一个螺栓,这个螺栓实际上用于 reduce 元素,使用该元素的输入作为 map 螺栓。WordCount 方法实现了必要的字数统计行为(将相似的单词分组到一起,以维护总数),但不是混排的,所以它的输出是一致的。如果有多个任务在实现 reduce 行为,那么您最终会得到分段的计数,而不是总数。第 11 和 12 行创建和定义了一个

63、配置对象并启用了 Debug 模式。Config 类包含大量配置可能性(参见 参考资料,获取有关 Storm 类树的更多信息的链接)。第 14 和 15 行创建了本地集群(在本例中,用于定义本地模式的用途)。我定义了我的本地集群、配置对象和拓扑结构的名称(可通过 builder 类的 createTopology 元素获取)。最后,在第 17 行,Storm 休眠一段时间,然后在第 19 行关闭集群。请记住,Storm 是一个持续运行的操作系统,所以任务可存在相当长时间,不断处理它们订阅的流上的新元组。您可在 Storm 入门工具包中了解这个非常简单的实现的更多信息,包括喷嘴和螺栓的细节。使用

64、 StormNathan Marz 编写了一组简单易懂的文档,详细介绍了如何安装 Storm 来执行集群模式和本地模式的操作。本地模式无需一个庞大的节点集群,即可使用 Storm。如果需要在一个集群中使用 Storm 但缺乏节点,也可在 Amazon Elastic Compute Cloud (EC2) 中实现一个 Storm 集群。请参见 参考资料 获取每个 Storm 模式(本地、集群和 Amazon EC2)的参考信息。其他开源的大数据解决方案自 Google 在 2004 年推出 MapReduce 范式以来,已诞生了多个使用原始 MapReduce 范式(或拥有该范式的质量)的解决方案。Google 对 MapReduce 的最初应用是建立万维网的索引。尽管此应用程序仍然很流行,但这个简单模型解决的问题也正在增多。表 1 提供了一个可用开源大数据解决方案的列表,包括传统的批处理和流式处理应用程序。在将 Storm 引入开源之前将近一年的时间

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!