大数据存储技术标准化的探讨

上传人:h**** 文档编号:209128670 上传时间:2023-05-12 格式:DOC 页数:6 大小:15KB
收藏 版权申诉 举报 下载
大数据存储技术标准化的探讨_第1页
第1页 / 共6页
大数据存储技术标准化的探讨_第2页
第2页 / 共6页
大数据存储技术标准化的探讨_第3页
第3页 / 共6页
资源描述:

《大数据存储技术标准化的探讨》由会员分享,可在线阅读,更多相关《大数据存储技术标准化的探讨(6页珍藏版)》请在装配图网上搜索。

1、大数据存储技术标准化的探讨 摘要:在Hadoop平台上分析大数据存储技术的标准化问题,具体描述了现有大数据库的存储技术以及应用状况,从数据采集、并行计算框架、以及结果的输出、并行数据处理等方面来探讨大数据存储的标准化问题。 关键词:并行计算 大数据存储 Hadoop 标准化 中图分类号:TP333 文献标识码:A 文章编号:1007-9416(2014)01-0222-01 1 引言 随着互联网Web2.0的兴起和云计算的发展,大数据的价值越来越受到人们的重视,人们对数据的处理实时性和有效性要求也越来越高。大数据的应用已经进入了各行各业了,如商业智能、公共服务、科学探讨等领域。目前大数据的分析

2、技术发展非常快速,尤其是大数据分析平台Hadoop得到了各大厂商的极大关注,基于Hadoop平台进行的大数据分析、数据存储探讨正在进行3。目前国际、国内尚未出现大数据分析的全流程标准服务和接口定义,本文探讨的重点是依据国内大数据的实际现状,采纳hadoop平台进行大数据存储处理的全流程分析以及各个功能模块进行对比探讨,提出建立大数据存储的标准化体系的建议,有利于促进形成大数据存储的基础性标准,从而为产业发展供应了有力的保障。 2 大数据存储技术的种类 大数据可能由TB级(或者甚至PB级)信息组成,既包括结构化数据(数据库、日志、SQL等)以及非结构化数据(社交媒体帖子、传感器、多媒体数据)2。

3、大部分这些数据缺乏索引或者其他组织结构,可能由许多不同文件类型组成。针对不同类型的海量数据,业界提出了不同的存储技术。 2.1 分布式文件系统 分布式文件系统主要代表有Google的GFS和Hadoop中的HDFS。GFS是一个可扩展的分布式文件系统,是针对与大规模数据处理和Google应用特性而设计的,他运行在廉价的一般硬件上,可以供应高容错、高性能的服务。 HDFS是开源的分布式文件系统(Hadoop Distributed File System),运行在跨机架的集群机器之上,具有高吞吐量来访问大数据集应用程序。它采纳了主/从结构,由一个NameNode节点和多个DataNode节点来组

4、成,NameNode主节点是主服务器,管理文件系统的命名空间和客户端对文件的访问操作;DataNode是集群中一般节点,它负责节点的数据的存储。客户端通过NameNode向DataNode节点交互访问文件系统,联系NameNode获得文件的元数,而文件I/O操作则是干脆和DataNode进行交互的。HDFS允许用户以文件的形式存储数据,HDFS将大规模数据分割成多个64M为单位的数据块,采纳数据块序列的形式存储在多个数据节点组成的分布式集群中。它具有很强的可扩展性,通过在集群中增加数据节点来满意不断增长的数据规模,同时它也具有高牢靠性和高容错性,每个数据块在不同的节点中有三个副本,在海量大数据

5、处理方面有很强的性能优势。 2.2 半结构化数据NoSQL数据库 NoSQL是一种打破了关系型数据库许久以来占主导地位的快速成长起来的非关系松散数据存储类型,这种数据存储不须要事先设计好的表结构,它也不会出现表之间的连接操作和水平分割。他可以弥补关系数据库在处理数据密集型应用方面表现出的性能差、扩展性差、敏捷性差等问题,NoSQL数据库了是作为关系数据库的补充。目前主流的NoSQL数据库有文档型数据库、列存储数据库、键值对(Key-Value)存储数据库。 (1)列存储数据库:列式数据库是以列相关存储架构进行数据存储的数据库,主要适合与批量数据处理和即席查询1。列存储将全部记录中相同字段的数据

6、聚合存储,它通常用于应付分布式存储文件系统。典型的列存储数据库有Cassandra、Hbase、Riak。(2)文档型数据类型:文档型数据库主要是用来存储、索引并管理面对文档的数据或者类似的半结构化的数据。它的核心概念就是文档(Document),文档是它的最小的单位,采纳多种格式进行解码,包括XML、YAML、JSON、BSON也包括一些二进制格式如PDF、微软的Office文档4。文档型数据库可以看做是键值数据库的升级版,允许之间的嵌套键值,它的一个显著特点就是比键值数据库的查询效率更高。典型的文档型数据有CouchDB、MongoDB。(3)键值对(Key-Value)存储数据库:(Ke

7、y-Value)存储数据库,数据是依据键值对的形式进行组织、索引和存储。Key-Value存储是适合不涉及数据关系业务关系的业务数据,同时能有效削减读写磁盘的次数,比SQL数据库存储拥有更好的读写性能。 3 大数据存储标准化探讨 随着物联网与云计算的探讨和应用不断的升入,大数据的分析技术目前已经进入了起步阶段,但目前国际上还没有制定大数据处理的标准,许多存储方面的标准化组织也开展了一些相关的工作。 大数据存储模型:CDMI标准的存储模型是采纳五类对象进行数据存储管理和访问操作,五类对象包括容器对象、数据对象、域对象、实力对象和队列对象,每个对象通过多个Key-Value数据进行云数据的描述。

8、大数据存储接口协议:CDMI标准支持REST接口协议,并能在HTTP基础进行扩展。 4 结语 大数据作为信息化时代的战略新兴产业,发展速度势不行挡,虽然目前国内还没有大数据存储的统一标准,但国内许多公司关注并投入到这一领域。制定符合中国国情的大数据存储接口标准,对促进整个产业的稳定发展具有重要的现实意义。 参考文献 1高洪.基于Hadoop平台的大数据分析关键技术标准化探讨J.信息技术与标准化,2013(5):78-79. 2丁兆明.大数据存储和分析技术应用及标准化J.信息技术与标准化,2013(5):34-36. 3吕明育.NoSQL数据库与关系数据库的比较分析J.微型电脑应用,2011(11):67-69. 4郭建波.海量结构化大数据存储检索系统探讨J.软件技术,2012(5):18-20.

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!