大数据平台技术框架选型

上传人：灯火****19 文档编号：81081856 上传时间：2022-04-26 格式：DOCX 页数：6 大小：40.69KB

收藏版权申诉举报下载

第1页 / 共6页

第2页 / 共6页

第3页 / 共6页

下载文档到电脑，查找使用更方便

12 积分

下载资源

资源描述：

《大数据平台技术框架选型》由会员分享，可在线阅读，更多相关《大数据平台技术框架选型（6页珍藏版）》请在装配图网上搜索。

1、大数据平台框架选型分析一、需求城市大数据平台，首先是作为一个数据管理平台，核心需求是数据的存和取，然后因为海量数据、多数据类型的信息需要有丰富的数据接入能力和数据标准化处理能力，有了技术能力就需要纵深挖掘附加价值更好的服务，如信息统计、分析挖掘、全文检索等，考虑到面向的客户对象有的是上层的应用集成商，所以要考虑灵活的数据接口服务来支撑。二、平台产品业务流程三、选型思路必要技术组件服务：ETL 非/关系数据仓储大数据处理引擎服务协调分析BI 平台监管四、选型要求1 .需要满足我们平台的几大核心功能需求，子功能不设局限性。如不满足全部，需要对未满足的其它核心功能的开放使用服务支持2

2、 .国内外资料及社区尽量丰富，包括组件服务的成熟度流行度较高3 .需要对选型平台自身所包含的核心功能有较为深入的理解，易用其API或基于源码开发4 .商业服务性价比高，并有空间脱离第三方商业技术服务5 . 一些非功能性需求的条件标准清晰，如承载的集群节点、处理数据量及安全机制等五、选型需要考虑简单性：亲自试用大数据套件。这也就意味着：安装它，将它连接到你的 Hadoop安装，集成你的不同接口（文件、数据库、 B2B等等），并最终建模、部署、执行一些大数据作业。自己来了解使用大数据套件的容易程度仅让某个提供商的顾问来为你展示它是如何工作是远远不够的。亲自做一个概念验证。广泛性：是否该大数据

3、套件支持广泛使用的开源标准一一不只是Hadoop和它的生态系统，还有通过SOAP和REST web服务的数据集成等等。它是否开源，并能根据你的特定问题易于改变或扩展？是否存在一个含有文档、论坛、博客和交流会的大社区？特性：是否支持所有需要的特性？Hadoop的发行版本（如果你已经使用了某一个）？你想要使技术、产品？请注意过多的特性可能会用的Hadoop生态系统的所有部分？你想要集成的所有接口、大大增加复杂性和费用。所以请查证你是否真正需要一个非常重量级的解决方案。是否你真的需要它的所有特性？陷阱：请注意某些陷阱。某些大数据套件采用数据驱动的付费方式（数据税”），也就是说，你得为自己处理的

4、每个数据行付费。因为我们是在谈论大数据，所以这会变得非常昂贵。并不是所有的大数据套件都会生成本地 Apache Hadoop代码，通常要在每个 Hadoop集群的服务器上安装一个私有引擎，而这样就会解除对于软件提供商的独立性。还要考虑你使用大数据套件真正想做的事情。某些解决方案仅支持将 Hadoop用于ETL来填充数据至数据仓库，而其他一些解决方案还提供了诸如后处理、转换或 Hadoop集群上的大数据分析。ETL仅是Apache Hadoop和其生态系统的一种使用情形。六、方案分析自建套件hortonworks国内类exadoopTDW+fineBI成本100%F 源培训服务3k/人授权支

5、持100K性能单集群最大规模达到5600 台，处理数据量可达百P级功能按需整合HDFS YARN据管理从各种引擎访问数据根据策略加载和管理数据身份验证、授权和数据保护大规模配置、管理、监控和运营Hadoop群集与您的数据分析工具集成跨平台配置部署易操作性安装复杂，操作需要专业培训。图形设计界面，参数配置，易上手。应用成熟度国外大客户较多文档 /社区支持文档较多，社区一般，相关专业培训较多。官方社区比较活跃（英文）中文社区有1个文档较少，多为英文文档文档较少，无商用服务，无任何技术支持扩展性开源开放开源开放开源开放移植支持多操作系统支持多操作系统支持

6、多操作系支持多操作系性统统监控监控功能强大Armbri元无优势1、跟随广品阶段逐1、开源强大支持的开源套1、国产套件1、开源中文支步完善整合自定义件2、父流支持方持套件2、配套商业服务支持便2、基于大数据2、自选流行组件，3、商业服务较处理核心，灵资料丰富灵活活组合其它组件来适应不同整合周期不可控产品阶段及项目劣势商业成本较局依赖于打包服半定制套件，务公司的支持预学现用七、相关资料HDP (hortonworks)A Complete Enterprise Hadoop Data Platform开源工具汇总整理类别名称备注查询引擎PhoenixSalesforce 公司出品， Apache

7、 HBase之上的一个 SQL中间层，完全使用Java编写Stinger原叫Tez,下Tt Hive,Hortonworks主导开发，运仃在 YARN的DAG计算框架PrestoFacebook 开源SharkSpark上的SQL执行引擎Pig基于Hadoop MapReduce的脚本语言Cloudera Impala参口G Google Dremel实现，能运行在 HDFSl HBase上，使用C+开发Apache Drill参口G Google Dremel 实现Apache Tajo一个运行在YARNLh支持SQL的分布式数据仓库Hive基于Hadoop MapReduce的SQL查询

8、引擎流式计算Facebook Puma实时数据流分析Twitter Rainbird分布式实时统计系统，如网站的点击统计Yahoo S4Java开发的一个通用的、分布式的、可扩展的、分区容错的、可插拔的无主架构的流式系统Twitter Storm使用Java和Clojure 实现迭代计算Apache Hama建立在 Hadoop 上基于 BSP (Bulk Synchronous Parallel )的计算框架，模仿了 Google 的 Pregel。Apache Giraph建立在Hadoop上的可伸缩的分布式迭代图处理系统，灵感来自BSP bulksynchronous paralle

9、l）和 Google 的 PregelHaLoop迭代的 MapReduceTwister迭代的MapReduce离线计算Hadoop MapReduce经典的大数据批处理系统Berkeley Spark使用Scala语百实现，和 MapReduce有较大的竞争关系，性能强于MapReduceDataTorrent基于Hadoop2.X构建的实时流式处理和分析平台，每秒可以处理超过10亿个实时事件键值存储LevelDBGoogle开源的高效KV编程库，注意它只是个库RocksDBFacebook开源的，基于 Google的LevelDB,但提高了扩展性可以运行在多核处理器上HyperDex下

10、Tt KV存储系统，支持 strings 、integers 、floats 、lists 、maps和sets等丰富的数据类型TokyoCabinet日本人Mikio Hirabayashi（平林干雄）开发的一款 DBMB据库，注总它只是个库（大名鼎鼎的 DBMB据库qdbm就是Mikio Hirabayashi 开发的），读写非常快Voldemort一个分布式键值存储系统，是AmazonDynam。的一个开源克隆，LinkedIn开源Amazon Dynamo亚马逊的KV模式的存储平台，无主架构Tair淘宝出品的高性能、分布式、可扩展、高可靠的KV结构存储系统，专为小文件优化，并提供简单易

11、用的接口（类似Map） , Tair支持Java和C版本的客户端Apache Accumulo一个可靠的、可伸缩的、高性能的排序分布式的KV存储系统，参照GoogleBigtable 而设计，建立在 Hadoop、Thrift 和 Zookeeper 之上。Redis使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、单机版KV数据库。从2010年3月15日起，Redis的开发工作由 VMware主持OceanBase支持海量数据的高性能分布式数据库系统，实现了数千亿条记录、数百TB数据上的跨行跨表事务Amazon SimpleDB一个可大规模伸缩、用Erlang编写的高可用数据

12、存储Vertica惠普2011收购Vertica , Vertica 是传统的关系型数据库，基于列存储，同时支持 MPP使用标准的 SQL查询，可以和Hadoop/MapReduce进行集成CassandraHadoop 成员，Facebook 于 2008 将 Cassandra 开源，基于 O(1)DHT 的完全P2P架构HyperTable搜索引擎公司 Zvents针对Bigtable 的C+FF源实现FoundationDB支持ACID事务处理的NoSQL数据库，提供非常好的性能、数据一致性和操作弹性HBaseBigtable 在Hadoop中的实现，最初是Powerset公

13、司为了处理自然语言搜索产生的海量数据而开展的项目文件存储CouchDB回向文档的数据存储MongoDB文档数据库Tachyon加州大学伯克利分校的AMPLab基于Hadoop的核心组件开发出一个更快的版本Tachyon,它从底层重构了 Hadoop平台。KFSGFS的C+济源版本HDFSGFS在Hadoop中的实现资源管理Twitter MesosGoogle Borg 的翻版Hadoop Yarn类似于Mesos日志收集系统Facebook ScribeFacebook开源的日志收集系统，能够从各种日志源上收集日志，存储到一个中央存储系统（可以是NFS,分布式文件系统等）上，以便于进行集

14、中统计分析处理，常与Hadoop结合使用，Scribe用于向HDFS中Push 日志Cloudera FlumeCloudera提供的日志收集系统，支持对日志的实时性收集logstash日志管理、分析和传输工具，可配合kibana、ElasticSearch组建成日志查询系统kibana为日志提供友好的 Web查询页面消息系统StormMQZeroMQRabbitMQ很底层的高性能网络库在AMQ理础上完整的，可复用的企业消息系统Apache ActiveMQ能力强劲的开源消息总线Jafka开源的、高性能的、跨语言分布式消息系统，最早是由Apache孵化的Kafka （由LinkedIn 捐助

15、给 Apache）克隆而来Apache KafkaLinkedin于2010年12月份开源的分布式消息系统，它主要用于处理活跃的流式数据，由 Scala写成分布式服务ZooKeeper分布式锁服务，PoxOS算法的实现，对应 Google的ChubbyRPCApache AvroHadoop 中的 RPCFacebook ThriftRPC支持 C+/Java/PHP等众多语言集群管理Nagios监视系统运行状态和网络信息的监视系统GangliaUC Berkeley发起的一个开源集群监视项目，设计用于测量数以千计的节点。Apache AmbariHadoop成员，管理和监视 Apache

16、Hadoop集群的开源框架基础设施LevelDBGoogle顶级大牛开发的单机版键值数据库，具有非常高的写性能SSTableRecordIO源于 Google , orted String Table源于GoogleFlat Buffers针对游戏开发的，高效的跨平台序列化库，相比Proto Buffers 开销更小，因为Flat Buffers 没有解析过程Protocol BuffersGoogle公司开发的一种数据描述语言，类似于XML能够将结构化数据序列化，可附十数据存储、通信协议等方面。它不依赖于语言和平台并且可扩展性极强。Consistent HashingNettyBloomF

17、ilter1997年由麻省理工学院提出，目标是为了解决因特网中的热点（ Hot spot ）问题，初衷和 CAR叶分类似，基本解决了在P2P环境中最为关键的1可题如何在动态的网络拓扑中分布存储和路由。JBOSS提供的一个java开源框架，提供异步的、事件驱动的网络应用程序框架，用以快速开发高性能、高可靠性的网络服务器和客户端程序。布隆过滤器，1970年由布隆提出，是一个很长的二进制矢量和一系列随机映射函数，可以用于检索一个元素是否在一个集合中，优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。慢索引擎Nutch开源Java实现的搜索引擎，诞生Hadoop

18、的地方。Lucene一套信息检索工具包，但并不包含搜索引擎系统，它包含了索引结构、读写索引工具、相关性工具、排序等功能。SolrCloud基于Solr和Zookeeper的分布式搜索，Solr4.0 的核心组件之一，主要思想是使用Zookeeper作为集群的配置信息中心SolrSolr是基于Lucene的搜索。开源的（Apache2协议），分布式的，RESTful的，构建在 Apache Lucene ElasticSearch之上的的搜索引擎。一个基于SQL的全文检索引擎，可结合MySQL PostgreSQL做全文检索，Sphinx可提供比数据库本身更专业的搜索功能，单一索引可达1亿条记

19、录，1000万条记录情况下的查询速度为0.x秒（毫秒级）。Linkin公司开发的一个开源分布式实时半结构化数据库，在全文索引的SenseiDB，一,基础封装了 Browse Query Language （BQL ,类似SQL）的查询语法。数据挖掘MahoutHadoop成员，目标是建立一个可扩展的机器学习库IaasOpenStack美国国家航空航天局和Rackspace合作研发的，以 Apache许可证授权云平台管理的项目，它不是一个软件。这个项目由几个主要的组件组合起来完成一些具体的工作，旨在为公共及私有云的建设与管理提供软件的开源项目。6个核心项目：Nova （计算，Compute）

20、 , Swift （对象存储，Object ） , Glance （镜像，Image） , Keystone （身份，Identity ）, Horizon （自助门户， Dashboard） , Quantum & Melange （网络 &M 址管理），另外还有右干社区项目，如Rackspace （负载均衡）、Rackspace（关系型数据库）。Docker应用容器引擎，让开发者可打包应用及依赖包到一个可移植的容器中，然后发布到Linux机器上，也可实现虚拟化。KubernetesGoogle开源的容器集群管理系统ImctfyGoogle 开源的 Linux 容器监控管理DapperZipkinGoogle生产环境下的大规模分布式系统的跟踪系统Twitter 开源的参考 Google Dapper 而开发，使用 Apache Cassandra 做为数据存储系统

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

大数据平台技术框架选型

最新文档

相关资源

相关搜索