云环境下存储技术的研究设计说明

上传人:l**** 文档编号:75488038 上传时间:2022-04-15 格式:DOC 页数:41 大小:1.18MB
收藏 版权申诉 举报 下载
云环境下存储技术的研究设计说明_第1页
第1页 / 共41页
云环境下存储技术的研究设计说明_第2页
第2页 / 共41页
云环境下存储技术的研究设计说明_第3页
第3页 / 共41页
资源描述:

《云环境下存储技术的研究设计说明》由会员分享,可在线阅读,更多相关《云环境下存储技术的研究设计说明(41页珍藏版)》请在装配图网上搜索。

1、学位论文原创性声明本人重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的容外,本论文不包括任何其他个人或集体已经发表或撰写的成果作品。本人完全意识到本声明的法律后果由本人承担。作者签名: 年 月 日学位论文使用授权书本学位论文作者完全了解学校有关保障、使用学位论文的规定,同意学校保留并向有关学位论文管理部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权省级优秀学士论文评选机构将本学位论文的全部或部分容编入有关数据进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于1、囗,在 年解密后适用本授权书2、不囗

2、。(请在以上相应方框打“”)作者签名: 年 月 日导师签名: 年 月 日本科生毕业设计(论文)任务书学生:专业班级: 通信0906班指导教师:许建霞 工作单位:信息工程学院设计(论文)题目: 云环境下存储技术的研究 设计(论文)主要容:云计算主要是利用现有的各种资源,使用虚拟化等多种技术,构建由大量计算机组成的称之为“云”的资源池,它具有强大的资源控制和监督管理能力,能够根据用户的不同需求来动态切割和分配计算资源,用户不需要去了解云的具体构成,只需要定制需求就可以获得云计算交付的服务。云存储伴随云计算而产生,与传统的专用存储相比,云存储增加了资源利用率,其独特的按使用付费和弹性扩展的方式提供计

3、算资源具有显著的优势,它将成为未来最值得期待推广和应用的技术之一。论文的主要容包括了解云存储的发展背景、特征、定义;对云存储的关键技术进行分析和研究;对比多家云存储厂商的架构技术和标准接口,了解其架构的特点,最后用CloudSim软件对云计算系统进行仿真。要求完成的主要任务:1. 查阅不少于15篇相关资料,其中英文文献不少于2篇。 2. 完成开题报告。3. 了解云存储的发展背景、特征、定义;对云存储的关键技术进行分析和研究; 4. 对比多家云存储厂商的架构技术和标准接口,了解其架构的特点。5. 用CloudSim软件对云计算系统进行仿真。6. 完成不少于20000字的论文的撰写并完成答辩的相关

4、工作。7. 在设计中完成不少于312#图纸的描绘。 8. 完成毕业设计周志。9. 完成不低于5000汉字(20000英文印刷符)的教师指定的相关文献的英译汉翻译。必读参考资料:1晏强, 晓锋, 丁蕊.云存储技术研究J. 上计算机与信息技术.2012. 第5期: 22-24.2 成静静. 基于Hadoop的分布式云计算/云存储方案的研究与设计J. 数据通信, 2012, 第5期: 14-18.3 PENG Yong, ZHAO Wei, Secure cloud storage based on cryptographic techniques J. ScienceDirect 89(2009)

5、174180 October 2012, 19(Suppl. 2): 182189.4 Josef Spillner, Johannes Mller, Alexander Schill.Creating optimal cloud storage systems.Future Generation Computer Systems 29 (2013) 10621072.指导教师签名系主任签名院长签名(章)理工大学本科生毕业设计(论文)开题报告1、目的与意义(含国外的研究现状分析)云存储是一个以数据存储和管理为核心的云计算系统,可以认为是以数据处理、数据运算为中心的系统,是指通过集群应用、网格技

6、术或分布式文件系统等功能,将网络量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统。云计算系统不但能对数据进行处理和运算,系统中还有大量的存储阵列设备,以实现对计算数据的保存和管理。在云计算系统中配置相应的存储设备,该计算系统即拥有了云存储系统功能。云存储不是存储,而是服务。就如同云状的广域网和互联网一样,云存储对使用者来讲,不是指某一个具体的设备,而是指一个由许许多多个存储设备和服务器所构成的集合体。使用者使用云存

7、储,并不是使用某一个存储设备,而是使用整个云存储系统带来的一种数据访问服务。所以严格来讲,云存储不是存储,而是一种服务。云存储的核心是应用软件与存储设备相结合,通过应用软件来实现存储设备向存储服务的转变。相比于传统的存储,云存储更容易扩容(包括带宽),云存储采取的架构是并行扩容,容量不够了,只要采购新的存储服务器即可,容量立即增加,几乎是没有限制的。更易于管理,因为将大部分数据迁移到云存储上去后,所有的升级维护任务都是由云存储服务提供商来完成,云存储服务则可以很方便的在原有基础上扩展服务空间,满足需求。成本更低廉,就目前来说,企业在数据存储上所付出的成本是相当大的,而且这个成本还在随着数据的暴

8、增而不断增加。IDC研究表明,从2006年到2010年,全球信息总量将增长6倍以上,从161EB增加到988EB(1EB=1024PB)。一些新推出的磁盘阵列中已经普遍采用了750GB或1TB的SATA(Serial Advanced Technology Attachment,串行高级技术附件,一种基于行业标准的串行硬件驱动器接口)硬盘。目前已知存储密度最高的磁盘阵列可以在4U空间(1U=4.45 cm)提供高达42TB的存储容量,这在以前是根本无法想象的。最新一代LTO-4磁带的单盒磁带存储容量也达到了1.6TB(压缩比为21)。技术的不断进步必将推动存储向更高容量发展,而重复数据删除、压

9、缩等技术的引入,可以进一步提升存储空间的利用率。从性能方面看,FC磁盘阵列已经逐步过渡到4GB时代,而8GB FC又在向数据中心用户招手;万兆IP存储不再是纸上谈兵;在InfiniBand领域,已经有厂商推出了40GB InfiniBand适配器产品。2、基本容和技术方案与传统的存储设备相比,云存储不仅仅是一个硬件,而是一个网络设备、存储设备、服务器、应用软件、公用访问接口、接入网、和客户端程序等多个部分组成的复杂系统。各部分以存储设备为核心,通过应用软件来对外提供数据存储和业务访问服务。云存储系统的结构模型由4层组成,如图1所示:图1(1)存储层存储层是云存储最基础的部分。存储设备可以是FC

10、光纤通道存储设备,可以是NAS和iSCSI等IP存储设备,也可以是SCSI或SAS等DAS存储设备。云存储中的存储设备往往数量庞大且分布多不同地域,彼此之间通过广域网、互联网或者FC光纤通道网络连接在一起。(2)基础管理层是云存储最核心的部分,也是云存储中最难以实现的部分。基础管理层通过集群、分布式文件系统和网格计算等技术,实现云存储中多个存储设备之间的协同工作,使多个的存储设备可以对外提供同一种服务,并提供更大更强更好的数据访问性能。CDN容分发系统、P2P数据传输技术和数据压缩技术等可以保证云存储中的数据可以更有效地存储,使用和占用更少的空间,占用更低的传输带宽,从而对外提供更高效的服务。

11、数据加密技术保证云存储中的数据不会被未授权的用户所访问,同时,通过各种数据备份和容灾技术和措施可以保证云存储中的数据不会丢失,保证云存储自身的安全和稳定。(3)应用接口层应用接口层是云存储最灵活多变的部分。不同的云存储运营单位可以根据实际业务类型,开发不同的应用服务接口,提供不同的应用服务。比如数据远程容灾和远程备份、视频监控应用平台、IPTV和视频点播应用平台、网络硬盘引用平台,远程数据备份应用平台等。(4)访问层任何一个授权用户都可以通过标准的公用应用接口来登录云存储系统,享受云存储服务。云存储运营单位不同,云存储提供的访问类型和访问手段也不同。云存储使用者采用的应用软件客户端不同,享受到

12、的服务类型也不同。3 进度安排第1-3周: 查阅相关文献资料,明确研究容,了解研究相关方向第4周: 开题报告的编写第5-8周: 完成各种实验方案资料的整理第9-11周: 完成原理和各种方案,并进行比较分析第12周: 研究云存储在数据存储的一些应用并进行仿真第13-14周:毕业论文书写第15-17周:完善毕业毕业设计论文,并答辩4 指导教师意见 指导教师签名: 年 月 日 31 / 41目录摘要IAbstractII1绪论11.1云存储的兴起11.2云存储的发展22云存储的概念32.1云存储的定义32.2云存储与传统存储32.3云存储与云计算42.4云存储架构模型43云存储的关键技术63.1存储

13、虚拟化技术63.2分布式存储技术73.3 数据备份技术83.3.1传统的备份策略83.3.2 副本数据布局83.3.3 连续数据保护83.4 数据缩减技术93.4.1 自动精简配置93.4.2 自动存储分层93.4.3 重复数据删除103.4.4 数据压缩103.5存储安全技术113.6 容错技术124云存储的架构技术134.1GFS系统架构134.2GPFS架构154.3HDFS架构164.4Dynamo架构175云计算仿真CloudSim205.1CloudSim环境配置205.2程序流程图225.3程序编写步骤225.4仿真结果296 总结与展望306.1 本文工作总结306.2研究工作

14、展望30参考文献31致33摘要云计算是当前研究与应用的热点问题。至今为止,Google、Microsoft、IBM、亚马逊等IT商业巨头都推出了自己的云计算平台,并把云计算作为其未来发展的最主要战略之一。云存储作为云计算的底层服务,对上层服务提供重要的支持;同时,云存储可以有效的存储和管理海量数据,所以更是成为专家学者们关注的焦点。因此,云存储的研究不但紧跟发展的趋势,同时还具有较高的应用价值。云存储是一种架构复杂的分布式文件系统,一是其建立在云计算系统的基础设施之上,这样的基础实施是基于廉价的或虚拟化了的不可信物理硬件;二是其必须支持超大节点规模和海量数据的高效存储,这对于系统架构和模块设计

15、的关键技术提出了巨大的挑战。本文讨论了云存储的发展背景,给出了云存储的定义,描述了云存储的特点,提出了云存储的架构模型,系统地阐述了云存储的关键技术,对比了GFS、GPFS、HDFS、Dynamo架构的特点,并用CloudSim对云计算系统进行了仿真。关键词:云存储,关键技术,架构模型,HDFS,CloudSimAbstractCloud computing is a hot topic in recent research and applicationsUp to now, Google、Microsoft、IBM、Amazon and some other famous cooperat

16、ions have proposed their cloud computing application, and take cloud computing as one of the most important strategy in the futureCloud storage is the lower layer of cloud computing system which supports the service of the other layers above itMeanwhile,it is an effective way to store and manage hea

17、vy dataSo it focused even more attentions from some researchersTherefore, the research of cloud storage will not only keep up on trends, but also has a high application value.Cloud storage is a distributed file system with complicated architectureFirstly,it is implemented on top of the cloud computi

18、ng infrastructure which is based on cheap,virtualized and unreliable physical hardwareSecondly,it should supports huge server scale,efficient heavy data storageAll of these challenge the key technologies of the system architecture and modules designThis article discusses the background of the develo

19、pment of cloud storage, gives the definition of cloud storage,describes the characteristics of cloud storage, proposes the mode of cloud storage architecture,exposed the key technologies of cloud storage systematically, compared the features of GFS, GPFS, HDFS, Dynamo architecture , and simulated th

20、e cloud computing system with CloudSim.Key Words:cloud storage,the key technologies,the mode of cloud storage architecture,HDFS,CloudSim1绪论近年来,随着云计算1-2和软件即时服务3-5的兴起,云存储成为信息存储领域的一个研究热点。与传统的存储设备相比,云存储不仅仅是一个硬件,而是一个网络设备、存储设备、服务器、应用软件、公用访问接口、接入网和客户端程序等多个部分组成的系统6。这是一种具有很大诱惑性的存储技术,云存储可以实现存储完全虚拟化,大大简化应用环节,节

21、省客户建设成本,同时提供更强的存储和共享功能。云状存储中所有设备对使用者完全透明,任何地方任何被授权用户都可以通过一根接入线与云存储连接,进行空间与数据访问。用户无需关心存储设备型号、数量、网络结构、存储协议、应用接口等,应用简单透明。因此,云存储的研究不但紧跟发展的趋势,同时还具有较高的应用价值。1.1云存储的兴起迄今为止,人类对于计算机发展的需求所关心的共同问题都集中在如何进行高效的存储和存储如何促进计算的协作上。存储与之相关计算的发展历经了以下四个的阶段7:(1)集中式的应用和存储客户机/服务器计算在计算的初期,所有的应用软件、所有的数据和控制器都位于大型的电脑主机之上。用户必须连接到主

22、机,获得适当的权限后才能访问数据。(2)存储资源共享对等计算无须经由服务器,将一台计算机连接到另一台计算机,导致了P2P对等计算的发展。在P2P网络中没有主机,所有的通信不再经由主服务器,计算机平等运行,所有的数据分散存储到对等的节点上,提高了通信效率,易于进行数据的共享。(3)存储与计算的分布式化个人电脑能的计算和存储的资源很大一部分没有得到较好的利用,分布式计算能很好的利用这些资源。当一台计算用于某个分布式项目时,需要在机器上安装软件,它会利用空闲的时间进行数据的存储与运算并定期传送到分布式计算网络中与该项目中的其它计算合并结果。只要有足够的计算机参与,这种做法足以比拟更大的主机和超级计算

23、机的处理能力,用户可以共享文件并同时在一样的文件上工作。(4)云计算瘦客户端下的计算与存储随着手持设备的发展,云计算的产生使得在瘦客户端没有多少计算力和存储空间的接入设备上,也能够进行海量数据的处理8。更深入的来看存储技术的发展。由于单机存储方案无法满足数据拓展和协作性,而产生了分布式存储系统10。分布式存储系统是基于硬件的存储技术,由于其较大的成本和较差的灵活性而逐渐被大型企业放弃9。云存储是一种新的分布式存储模式,具有廉价、高可靠性和安全性的优点7,9,11,12,成为未来最值得期待推广和应用的技术之一。1.2云存储的发展云存储这个概念一经提出,就得到了众多厂商的支持和关注13。Amazo

24、n公司推出弹性块存储技术支持数据持久性存储;Google推出在线存储服务GDrive;容分发网络服务提供商CDNetworks和云存储平台服务商Nirvanix结成战略伙伴关系,提供云存储和容传送服务集成平台;EMC公司收购Berkeley Data Systems,取得该公司的Mozy在线服务软件,并开展SaaS业务;Microsoft公司推出Windows Azure,并在美国各地建立庞大的数据中心;IBM也将云计算标准作为全球备份中心扩展方案的一部分。目前有近百种云存储系统。一些系统有明确的关注点,如存储网络电子信息或者数字图片。其它一些用来存储所有形式的数字文件。一些云存储系统是小规模

25、操作的,其它一些是超大集群的以至于物理设备能填满整个仓库。尽管对于云存储来说有很多优势值得我们选择和研究,然而云存储仍面临着许多技术的难题,特别是安全性。图1.1是因特网数据中心关于云存储所做的调研13,可以看出安全、控制和性能等问题是关注的焦点。有效的控制和性能反映出用户对于云存储可用性的期待。目前云存储研究的热点仍集中在安全性、可用性、可靠性三个方面。云存储安全特别是用户数据的隐私问题,即服务商也不能得到用户的数据,至今没有较好的解决方案。图1.1 云存储的关注调查2云存储的概念2.1云存储的定义云存储是指通过集群应用、网格技术或分布式文件系统等功能, 将网络量各种不同类型的存储设备通过应

26、用软件集合起来协同工作, 共同对外提供数据存储和业务访问功能的一个系统。云存储系统以传统的分布式存储技术为基础,利用高吞吐率网络技术为依托,一方面高效地整合管理网络存储资源,另一方面对外提供友好的接口,发布便捷的网络数据存储服务。与传统的存储设备相比,云存储不仅仅是一个硬件,而是一个网络设备、存储设备、服务器、应用软件、公用访问接口、接入网和客户端程序等多个部分组成的系统12。云存储不是存储, 而是服务。使用者使用云存储,并不是使用某一个存储设备,而是使用整个云存储系统带来的一种数据访问服务。云存储的核心是应用软件与存储设备相结合,通过应用软件来实现存储设备向存储服务的转变13。2.2云存储与

27、传统存储相比于传统的集中存储方式,云存储系统具有以下几点优势:(1)更容易扩容(包括带宽)云存储的扩容过程将变得简单:新设备仅需安装操作系统与云存储软件后,打开电源接上网络,云存储系统便能自动识别,自动把容量加入存储池中完成扩展。相比传统的存储扩容,云存储架构采用的是并行扩容方式,即当容量不够时,采购新的存储服务器即可,扩容环节无任何限制。(2)更易于管理在传统存储系统管理中,管理人员需要面对不同的存储设备不同的管理界面,要了解每个存储的使用状况,工作复杂而繁重,当传硬盘或是存储服务器损坏时,读写效率会降低,数据很可能丢失;而云存储没有这个困扰,硬盘坏掉,数据会自动迁移到别的硬盘,不需要立即更

28、换硬盘,大大减轻了管理人员的工作负担。对云存储来说,管理人员只要在整体硬盘容量快用完时,按需采购服务器即可,通过一个统一管理界面监控每台存储服务器的使用状况,使得维护变得简单和易操作。(3)成本更低廉传统的存储系统对硬盘的要求近乎苛刻,必须同厂家、同容量、同型号,否则系统很容易出问题。面对升级换代较快的IT产业,硬盘在使用23年后很难找到同型号产品更换。而云存储没有这个问题,云存储系统中不同的硬盘可以一起工作,既可以实现原有硬件的利旧保护投入,又可以实现新技术、新设备的快速更新,合理搭配、可持续发展。且云存储系统中所采用的存储与服务器设备均是性价比较高的设备。可实现长久合作关系下,设备商采购的

29、稳定渠道,便于实现对成本与服务质量的控制。(4)数据更安全,服务不中断传统存储系统会因为硬件损坏而导致服务停止,虽然可以设计全冗余的环境,但成本相对太高且工作复杂。云存储系统则不同,它可通过将文件和数据保存在不同的存储节点, 避免了单一硬件损坏带来的数据不可用。云存储系统知道文件存放的位置,在硬件发生损坏时,云存储系统会自动将读写指令导向存放在另一台存储服务器上的文件,保持服务的继续。另外,传统存储系统在升级时,往往需要把旧的存储设备文件备份出来后,停机换上新的存储设备,这通常会导致服务的短暂停止。云存储并不单独依赖一台存储服务器,因此存储服务器硬件的更新、升级并不会影响存储服务的提供,系统会

30、将旧存储服务器上的文件迁移到别的存储服务器,等新的存储服务器上线后,文件会再迁移回来。2.3云存储与云计算从整体来看,云计算系统可以认为是以数据处理、数据运算为中心的系统。云计算的设计方向是将在不同地域的各种计算资源,通过虚拟化方式统一到庞大的计算资源“云”系统中来。云系统统一调配、协调、处理来自不同客户的运算需求,通过云系统计算后对外输出运算结果。云计算的一个核心理念就是通过不断提高“云”的处理能力,进而减少用户终端的处理负担,最终使用户终端简化成一个单纯的输入输出设备,并能按需享受“云”的强大计算处理能力。通过云计算技术,网络服务提供者可以在数秒之,处理数以千万计甚至亿计的信息,达到和“超

31、级计算机”同样强大的网络服务功能。云计算系统不但能对数据进行处理和运算,系统中还有大量的存储阵列设备,以实现对计算数据的保存和管理。在云计算系统中配置相应的存储设备,该计算系统即拥有了云存储系统功能。由此可以理解,云存储是云计算系统的延伸,是配置了大容量存储空间的云计算系统,可以说云存储是云计算服务的一种,即SaaS13(storage as a service,存储即服务),甚至可以说,利用云计算系统来建立存储系统,此时的云存储概念相当于一个云计算服务,它往往称之为“存储云”。如亚马逊的S3服务,我们可以利用它来建立另外一个存储系统,S3服务本身就是云服务,所以这样的系统可以称为云存储。2.

32、4云存储架构模型云存储系统的结构模型由4层组成,如图2.1所示。(1)存储层存储层是云存储最基础的部分。数量庞大的云存储设备分布在不同地域,彼此之间通过广域网、互联网或者FC光纤通道网络连接。各存储设备上都安装有统一的存储设备管理系统,可以实现存储设备的逻辑虚拟化管理、集中管理、多链路冗余管理以与硬件设备的状态监控和维护升级等。(2)基础管理层基础管理层是云存储最核心的部分,也是云存储中最难以实现的部分。应用接口层通过集群系统、分布式文件系统和网格计算等技术,实现云存储中多个存储设备之间的协同工作,使多个的存储设备可以对外提供同一种服务,并提供更大、更强、更好的数据访问性能。云存储系统通过集群

33、文件操作系统实现后端存储设备的集群工作,并通过系统的控制单元和管理单元实现整个系统的管理,数据的分发、处理,处理结果的反馈。可利用CDN容分发系统、P2P数据传输技术和数据压缩技术等保证云存储中的数据可以更有效地存储,使用和占用更少的空间以与更低的传输带宽,从而对外提供更高效的服务。数据加密技术实现了数据存储和传输过程中的安全性。数据备份和容灾技术可保证云存储中的数据多份保存不会丢失,保证云存储数据自身的安全和稳定。(3)应用接口层应用接口层是云存储最灵活多变的部分。不同的云存储运营单位可以根据实际业务类型,开发不同的应用服务接口,提供不同的应用服务。任何一个授权用户通过网络接入、用户认证和权

34、限管理接口的方式来登入云存储系统,都可以享受云存储服务。(4)访问层云存储运营单位不同,提供的访问类型和访问手段也不同。云存储使用者采用的应用软件客户端不同,享受到的服务类型也不同,比如个人空间租赁服务、运营商空间租赁服务、数据远程容灾和远程备份、视频监控应用平台、IPTV和视频点播应用平台、网络硬盘引用平台,远程数据备份应用平台等。图2.1云存储架构模型3云存储的关键技术3.1存储虚拟化技术通过存储虚拟化方法,把不同厂商、不同型号、不同通信技术、不同类型的存储设备互联起来,将系统中各种异构的存储设备映射为一个统一的存储资源池。存储虚拟化技术能够对存储资源进行统一分配管理,又可以屏蔽存储实体间

35、的物理位置以与异构特性,实现了资源对用户的透明性,降低了构建、管理和维护资源的成本,从而提升云存储系统的资源利用率。总体来说,存储虚拟化技术可概括为基于主机虚拟化、基于存储设备虚拟化和基于存储网络虚拟化三种技术。用表格的方式对三种存储虚拟化技术的技术优点与缺点、适应场景等进行了分析对比,结果如下:表3.1存储虚拟化技术对比实现层面主机网络设备优点支持异构的存储系统;不需要额外的硬件支持,便于部署。不占用主机资源;技术成熟度高,容易实施。架构合理,不占用主机资源;数据管理功能丰富,技术成熟度高。缺点占用主机资源,降低应用性能;存在越权访问的数据安全隐患;主机数量越多,管理成本越高。消耗存储控制器

36、资源;存储设备兼容性需要严格验证;原有的磁盘阵列的高级存储功能将不能使用。受制于存储控制器接口资源,虚拟化能力较弱;异构厂家存储设备的高级存储功能将不能使用。主要用途使服务器的存储空间可以跨越多个异构磁盘阵列,常用于在不同磁盘阵列之间做镜像保护。异构存储系统整合和统一数据管理(灾备)异构存储系统整合和统一数据管理(灾备)适用场景主机采用SF卷管理,需要新接多台存储设备;存储系统中包含异构阵列设备;业务持续能力与数据吞吐要求较高。系统包括不同品牌和型号的主机和存储设备;对数据无缝迁移与数据格式转换有较高时间性保证。系统中包括自带虚拟化功能的高端存储设备与若干需要利旧的中低端存储。不适用场景主机数

37、量大,采用SF会涉与高昂的费用;待迁入系统数据量过大,如果只能采用存储级迁移方式,数据格式转换将耗费大量时间和人力。对业务持续性能力和稳定性要求苛刻。需要新购机头时,费用较高;存在更高端的存储设备。(1)基于主机的虚拟化其核心技术是通过增加一个运行在操作系统下的逻辑卷管理软件将磁盘上的物理块号映射成逻辑卷号,并以此实现把多个物理磁盘阵列映射成一个统一的虚拟的逻辑存储空间(逻辑块)实现存储虚拟化的控制和管理。(2)基于存储设备虚拟化该技术依赖于提供相关功能的存储设备的阵列控制器模块,常见于高端存储设备,其主要应用针对异构的SAN存储构架。(3)基于存储网络虚拟化该的技术的核心是在存储区域网中增加

38、虚拟化引擎实现存储资源的集中管理,其具体实施一般是通过具有虚拟化支持能力的路由器或交换机实现。存储网络虚拟化又可以分为带虚拟化与带外虚拟化两类,二者主要的区别在于:带虚拟化使用同一数据通道传送存储数据和控制信号,而带外虚拟化使用不同的通道传送数据和命令信息。3.2分布式存储技术分布式存储是通过网络使用服务商提供的各个存储设备上的存储空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散的存储在各个存储设备上。先进的分布式存储系统必须具备以下特性:高性能、高可靠性、高可扩展性、透明性以与自治性。目前比较流行的分布式存储技术为:分布式块存储、分布式文件系统存储、分布式对象存储和分布式表存储。

39、(1)分布式块存储块存储就是服务器直接通过读写存储空间中的一个或一段地址来存取数据。由于采用直接读写磁盘空间来访问数据,相对于其他数据读取方式,块存储的读取效率最高,一些大型数据库应用只能运行在块存储设备上。分布式块存储系统目前以标准的Intel/Linux硬件组件作为基本存储单元,组件之间通过千兆以太网采用任意点对点拓扑技术相互连接,共同工作,构成大型网格存储,网格采用分布式算法管理存储资源。(2)分布式文件系统存储文件存储系统可提供通用的文件访问接口,如POSIX等,实现文件与目录操作、文件访问、文件访问控制等功能。目前的分布式文件系统存储的实现有软硬件一体和软硬件分离两种方式。(3)分布

40、式对象存储对象存储引入对象元数据来描述对象特征,对象元数据具有丰富的语义,支持数据的并发读写,一般不支持数据的随机写操作。对象存储技术相对成熟,对底层硬件要求不高,存储系统可靠性和容错通过软件实现,同时其访问接口简单,适合处理海量、小数据的非结构化数据,如:、网盘、相册、音频视频存储等。(4)分布式表存储表结构存储是一种结构化数据存储,与传统数据库相比,它提供的表空间访问功能受限,但更强调系统的可扩展性。提供表存储的云存储系统的特征就是同时提供高并发的数据访问性能和可伸缩的存储和计算架构。提供表存储的云存储系统有两类接口访问方式:一类是标准的SQL数据库接口,一类是Map-reduce的数据库

41、应用处理接口。前者目前以开源技术为主,尚未有成熟的商业软件,后者已有商业软件和成功的商业应用案例。3.3 数据备份技术3.3.1传统的备份策略典型的用户备份流程是这样的:每天都要在凌晨进行一次增量备份,然后每周末凌晨进行全备份。采用这种方法,一旦出现了数据灾难,用户可以恢复到某天(注意是以天为单位的)的数据,因此在最坏的情况下,可能丢失整整一天的数据。该备份策略在备份的数据量很大的情况下,备份时间窗口很大,需要繁忙的业务系统停机很长时间才能做到。因此,为了确保数据的更高安全性,用户必须对在线系统实行在线实时复制,尽可能多地采用快照等磁盘管理技术维持数据的高可用性,这样势必需要增加很大一部分投资

42、。3.3.2 副本数据布局该方法通过集中式的存储目录来定位数据对象的存储位置。这种方法可以利用存储目录中存放的存储节点信息,将数据对象的多个副本放置在不同机架上,这样可大大提高系统的数据可靠性。然而,它存在以下两个缺陷:(1)随着存储目录的增长,查找数据对象所需的开销也会越来越大;(2)为提高数据对象的定位速度,一般情况下都会将存储目录存放在服务器存中,对于PB级的云存储系统来说,文件的数量可能达到上亿级,这导致存储目录将会占用上百GB的存。因此,当数据对象数量达到上亿级别时,基于集中式存储目录的数据放置方法在存储开销和数据定位的时间开销上都是难以接受的,此外,还会大大限制系统的扩展性。3.3

43、.3 连续数据保护连续数据保护是一种连续捕获和保存数据变化,并将变化后的数据独立于初始数据进行保存的方法,可以实现过去任意一个时间点的数据恢复。连续数据保护系统可能基于块、文件或应用,并且为数量无限的可变恢复点提供精细的可恢复对象。连续数据保护可以提供更快的数据检索、更强的数据保护和更高的业务连续性能力,而与传统的备份解决方案相比,连续数据保护的总体成本和复杂性都要低。连续数据保护解决方案应当具备以下几个基本特性:数据的改变受到连续的捕获和跟踪;所有的数据改变都存储在一个与主存储地点不同的独立地点中;恢复点目标是任意的,而且不需要在实际恢复之前事先定义。尽管一些厂商推出了连续数据保护产品,然而

44、从它们的功能上分析,还做不到真正连续的数据保护,比如有的产品备份时间间隔为一小时,那么在这一小时仍然存在数据丢失的风险,因此,严格地讲,它们还不是完全意义上的连续数据保护产品,目前我们只能称之为类似连续数据保护产品。3.4 数据缩减技术数据量的急剧增长为存储技术提出了新的问题和要怎样低成本高效快速地解决无限增长的信息的存储和计算。通过云存储技术不仅解决了存储中的高安全性、可靠性、可扩展、易管理等存储的基本要求,同时也利用云存储中的数据缩减技术,满足海量信息爆炸式增长趋势,一定程度上节约企业存储成本,提高效率。3.4.1 自动精简配置该技术是利用虚拟化方法减少物理存储空间的分配,通过“欺骗”操作

45、系统,造成的好像存储空间有足够大,而实际物理存储空间并没有那么大,会减少已分配但未使用的存储容量的浪费,在分配存储空间时,按需分配,最大限度提升存储空间利用率,利用率超90。利用自动精简配置技术,用户不需要了解存储空间分配的细节,能帮助用户在不降低性能的情况下,大幅度提高存储空间利用效率;需求变化时,无需更改存储容量设置,通过虚拟化技术集成存储,减少超量配置,降低总功耗。这项技术已经成为选择存储系统的关键标准之一。随着自动精简配置的存储越来越多,物理存储的耗尽成为自动精简配置环境中经常出现的风险,因此,告警、通知和存储分析成为必要的功能。3.4.2 自动存储分层在过去,数据移动主要依靠手工操作

46、,由管理员来判断数据访问压力,迁移的时候只能一个整卷一起迁移。自动存储分层技术的特点则是其分层的自动化和智能化。一个磁盘阵列能够把活动数据保留在快速、昂贵的存储上,把不活跃的数据迁移到廉价的低速层上,以限制存储的花费总量。数据从一层迁移到另一层的粒度越精细,使用的昂贵存储的效率就越高。自动存储分层的重要性随着固态存储在当前磁盘阵列中的采用而提升,并随着云存储的来临而补充部部署的存储。自动存储分层使用户数据保留在合适的存储层级,而不需要用户定义的策略,因此减少了存储需求的总量并实质上减少了成本,提升了性能。3.4.3 重复数据删除该技术通过删除集中重复的数据,只保留其中一份,从而消除冗余数据,可

47、以将数据缩减到原来的2%5%。按照消重的粒度重复数据删除技术可以分为文件级和数据块级。该技术计算数据指纹,具有一样指纹的数据块即可认为是一样的数据块,存储系统中仅需要保留一份。这样,一个物理文件在存储系统中就只对应一个逻辑表示。由于大幅度减少了物理存储空间的信息量,进而减少传输过程中的网络带宽、节约设备成本、降低能耗。3.4.4 数据压缩数据压缩就是将收到的数据通过存储算法存储到更小的空间中去。随着目前CPU处理能力的大幅提高,应用实时压缩技术来节省数据占用空间成为现实,这项新技术就是最新研发出的在线压缩,它与传统压缩技术不同,当数据在首次写入时即被压缩,以帮助系统控制大量数据在主存中杂乱无章

48、地存储的情形,特别是多任务工作时更加明显。该技术还可以在数据写入到存储系统前压缩数据,进一步提高了存储系统中的磁盘和缓存的性能和效率。压缩算法分为无损压缩和有损压缩。相对于有损压缩来说,无损压缩的占用空间大,压缩比不高,但是它有效地保存了原始信息,没有任何信号丢失。但是随着限制无损格式的种种因素逐渐被消除,使得无损压缩格式具有广阔的应用前景。数据压缩中使用的LZ77算法,主要由2部分构成,滑窗(Sliding Window)和自适应编码(Adaptive Coding)。压缩处理时,在滑窗中查找与待处理数据一样的块,并用该块在滑窗中的偏移值与块长度替代待处理数据,从而实现压缩编码。如果滑窗中没

49、有与待处理数据块一样的字段,或偏移值与长度数据超过被替代数据块的长度,则不进行替代处理。该算法的实现非常简洁,处理比较简单,能够适应各种高速应用。数据压缩的应用可以显著降低待处理和存储的数据量,一般情况下可实现2:13:1的压缩比。图3.1 LZ77算法示意图压缩和去重是互补性的技术,提供去重的厂商通常也提供压缩。而对于虚拟服务器卷、电子附件、文件和备份环境来说,去重通常更加有效,压缩对于随机数据效果更好,像数据库。换句话说,在数据重复性比较高的地方,去重比压缩有效。3.5存储安全技术可扩展和高性能的存储安全技术,是推动云存储最根本的保证,已经成为当前网络存储领域的研究热点。云存储应用中的存储

50、安全包括认证服务、数据加密存储、安全管理、安全日志和审计。(1)认证服务:访问控制服务实现用户身份认证、授权,防止非法访问和越权访问。主要功能包括:用户只能对经管理员或文件所有者授权的许可文件进行被许可的操作;管理员只能进行必要的管理操作,如用户管理、数据备份、热点对象迁移,而不能访问用户加密了的私有数据。(2)加密存储:是对指定的目录和文件进行加密后保存,实现敏感数据存储和传送过程中的性保护。(3)安全管理:主要功能是用户信息和权限的维护,如用户注册和注销等,授权用户、紧急情况下对用户权限回收等。(4)安全日志和审计:是记录用户和系统与安全相关的主要活动事件,为系统管理员监控系统和活动用户提

51、供必要的审计信息。随着存储系统和存储设备越来越网络化,存储系统在保证敏感数据性的同时,必须提供相应的加密数据共享技术。必须研究适用于网络存储系统的加密存储技术,提供端到端加密存储技术与密钥长期存储和共享机制,以确保用户数据的性和隐私性,提高密钥存储的安全性、分发的高效性与加密策略的灵活性。在海量的加密信息存储中,加密检索是实现信息共享的主要手段,是加密存储中必须解决的问题之一。加密检索技术有线性搜索算法、基于关键词的公钥加密搜索、安全索引、引入相关排序的加密搜索算法。(1)线性搜索算法首先用对称加密算法对明文信息加密,对于每个关键词对应的密文信息,生成一串长度小于密文信息长度的伪随机序列,并生

52、成一由伪随机序列与密文信息确定的校验序列,伪随机序列的长度与检验序列长度之和等于密文信息的长度,伪随机序列与检验序列对密文信息再次加密。在搜索过程中,用户提交明文信息对应的密文信息序列。在服务器端,密文信息序列被线性的同每一段序列模2加。如果得到的结果满足校验关系,那么说明密文信息序列出现,否则,说明密文信息不存在。线性搜索方法是一次一密的加密信息检索算法,因此有极强的抵抗统计分析的能力。但其有一个致命的缺点,即逐次匹配密文信息,这使得这种检索方法在大数据集的情况下难以应用。(2)基于关键词的公钥加密搜索算法14由Boneh等人提出的,其目的是可以在用户端存储、计算资源不足的情况下,通过访问远

53、端数据库获取数据信息。此算法首先生成公钥、私钥,然后对存储的明文关键词用公钥进行加密,生成可搜索的密文信息。此算法可以解决两方面的问题:第一,存储、计算资源分布的不对称性,即用户的计算存储能力不能实时满足其需求;第二,用户在移动情况下对存储、检索数据的需求,比如Email服务等。(3)安全索引15由Park等人提出,其机制是每次加密所用的密钥是事先生成的一组逆Hash序列,加密后的索引被放入布隆过滤器中。当检索的时候,首先用逆Hash序列密钥生成多个陷门,然后进行布隆检测。对返回的密文文档解密即可得到所需检索的文档。针对有新用户加入、旧用户退出的多用户加密信息检索,这是一种解决方法。但其存在的

54、缺陷是需要生成大量的密钥序列,随着检索次数的增加,每多进行一次检索,其计算复杂度均线性增加。这在实际应用中很难被接受。(4)引入相关排序的加密搜索算法16Swaminathan等人提出了保护隐私的排序搜索算法。在这一算法中,每一文档中关键词的词频都被保序加密算法加密。提交查询给服务器端后,首先计算检索出含有关键词密文的加密文档;然后对用保序算法加密的词频对应的密文信息进行排序处理;最后把评价值高的加密文档返回给用户,由用户对其进行解密。这一种方法可以在给定多个可能相关文档的情况下对加密文档进行排序,进而把最可能相关的文档返回给用户。但这一种算法首先不适用于一个查询包含多个查询词的情况,其次算法

55、只利用了文档中的词频信息,无法利用词的逆文档频率,进而向量空间模型无法直接应用。3.6 容错技术数据容错技术一般都是通过增加数据冗余来实现的。冗余提高了容错性,但是也增加了存储资源的消耗。因此,在保证系统容错性的同时,要尽可能地提高存储资源的利用率,以降低成本。目前,常用的容错技术主要有基于复制(replication)的容错技术和基于纠删码(erasure code)的容错技术两种。(1)基于复制的容错技术该技术对一个数据对象创建多个一样的数据副本,并把得到的多个副本散布到不同的存储节点上。当若干数据对象失效以后,可以通过访问其他有效的副本获取数据。基于复制的容错技术简单直观,易于实现和部署

56、,但是存储空间开销很大;当数据失效以后,只需要从其他副本下载同样大小的数据即可进行修复。(2)基于纠删码的容错技术该技术源于信道传输的编码技术,因为能够容忍多个数据帧的丢失,被引入到分布存储领域,使得基于纠删码的容错技术成为能够容忍多个数据块同时失效的、最常用的基于编码的容错技术。基于编码的容错技术通过对多个数据对象进行编码产生编码数据对象,能够把多个数据块的信息融合到较少的冗余信息中,因此能够有效地节省存储空间,但是对数据的读写操作要分别进行编码和解码操作,需要一些计算开销;当数据失效以后,需要下载的数据量一般远大于失效数据大小,修复成本较高。4云存储的架构技术4.1GFS系统架构GFS(G

57、oogle File System),是Google公司为了存储海量搜索数据而设计的专用文件系统。GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,但可以提供容错功能,可以给大量的用户提供总体性能较高的服务。GFS提供了一个类似传统文件系统的接口,虽然它没有向POSIX(Portable Operating System Interface,可移植操作系统接口),那样实现标准的API(Application Programming Interface,应用程序编程接口)。文件在目录中按照层次组织,用路径名来标识,可应用在Linux和W

58、indows等各种平台。GFS系统架构17如图4.1所示:图4.1 GFS系统架构客户端在访问GFS时,首先访问Master节点,获取将要与之进行交互的Chunk Server信息,然后直接访问这些Chunk Server完成数据存取。GFS的这种设计方法实现了控制流和数据流的分离。Client与Master之间只有控制流,而无数据流,这样就极降低了Master的负载,使之不成为系统性能的一个瓶颈。Client与Chunk Server之间直接传输数据流,同时由于文件被分成多个Chunk进行分布式存储,Client可以同时访问多个Chunk Server,从而使得整个系统的I/O高度并行,系统

59、整体性能得到提高。具体来说,GFS具有以下几个特点。(1)采用中心服务器模式GFS采用中心服务器模式来管理整个文件系统,可以大大简化设计,从而降低实现难度。Master管理了分布式文件系统中的所有元数据。文件划分为Chunk进行存储,对于Master来说,每个Chunk Server只是一个存储空间。Client发起的所有操作都需要先通过Master才能执行。这样做有许多好处,增加新的Chunk Server是一件十分容易的事情,Chunk Server只需要注册到Master上即可,Chunk Server之间无任何关系。Master维护了一个统一的命名空间,同时掌握整个系统Chunk Se

60、rver的情况,据此可以实现整个系统围数据存储的负载均衡。由于只有一个中心服务器,元数据的一致性问题自然解决。当然,中心服务器模式也带来一些固有的缺点,比如极易成为整个系统的瓶颈等。GFS采用多种机制来避免Master成为系统性能和可靠性上的瓶颈,如尽量控制元数据的规模、对Master进行远程备份、控制信息和数据分流等。(2)不缓存数据缓存(Cache)机制是提升文件系统性能的一个重要手段,通用文件系统为了提高性能,一般需要实现复杂的缓存机制。GFS文件系统根据应用的特点,没有实现缓存,这是从必要性和可行性两方面考虑的。从必要性上讲,客户端大部分是流式顺序读写,并不存在大量的重复读写,缓存这部

61、分数据对系统整体性能的提高作用不大;而对于Chunk Server,由于GFS的数据在Chunk Server上以文件的形式存储,如果对某块数据读取频繁,本地的文件系统自然会将其缓存。从可行性上讲,如何维护缓存与实际数据之间的一致性是一个极其复杂的问题,在GFS中各个Chunk Server的稳定性都无法确保,加之网络等多种不确定因素,一致性问题尤为复杂。此外由于读取的数据量巨大,以当前的存容量无法完全缓存。对于存储在Master中的元数据,GFS采取了缓存策略,GFS中Client发起的所有操作都需要先经过Master。Master需要对其元数据进行频繁操作,为了提高操作的效率,Master

62、的元数据都是直接保存在存中进行操作。同时采用相应的压缩机制降低元数据占用空间的大小,提高存的利用率。(3)在用户态下实现文件系统作为操作系统的重要组成部分,其实现通常位于操作系统底层。以Linux为例,无论是本地文件系统,还是分布式文件系统,都是在核态实现的。在核态实现文件系统,可以更好地和操作系统本身结合,向上提供兼容的POSIX接口。然而,GFS却选择在用户态下实现。(4)只提供专用接口通常的分布式文件系统一般都会提供一组与POSIX规兼容的接口。其优点是应用程序可以通过操作系统的统一接口来透明地访问文件系统,而不需要重新编译程序。GFS在设计之初,是完全面向Google的应用的,采用了专

63、用的文件系统访问接口。接口以库文件的形式提供,应用程序与库文件一起编译,Google应用程序在代码过调用这些库文件的API,完成对GFS文件系统的访问。由以上分析可以看出,GFS并不是一个通用的云存储系统,它更适合于大型的搜索业务以至于GFS的设计考虑了许多具体业务特性,如文件的大小、读写频率等,这些将限制GFS的业务应用。同时,主从式结构的单点失效和性能瓶颈问题也是业关注的中心。当然,GFS本身也在优化和改进之中。4.2GPFS架构GPFS(General Parallel File System,GPFS)是IBM公司第一个共享文件系统,起源于IBM SP系统上使用的虚拟共享磁盘技术( VSD )。作为这项技术的核心,GPFS是一个并行的磁盘文件系统,它保证在资源组的所有节点可以并行访问整个文件系统;而且针对此文件系统的服务操作,可以同时安全地在使用此文件系统的多个节点上实现。GPFS允许客户共享文件,而这些文件可能分布在不同节点的不同硬盘上。GPFS提供了许多标准的UNIX文件系统接口,允许应用不需修改或者重新编辑就可以在其上运行。GPFS也支持UNIX文件系统的工具,即:用户可以像使用普通文件系统一样使用基于GPFS的文件系统,唯一不同的在于管理GPFS文件系统的命令。GPFS提供的文件系统操作服务可以支持并行应用和串行应用,它允许任何节点(这些节点

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!