分布式存储在数据治理场景中的价值

上传人:s****a 文档编号:217060609 上传时间:2023-06-10 格式:DOCX 页数:10 大小:67.22KB
收藏 版权申诉 举报 下载
分布式存储在数据治理场景中的价值_第1页
第1页 / 共10页
分布式存储在数据治理场景中的价值_第2页
第2页 / 共10页
分布式存储在数据治理场景中的价值_第3页
第3页 / 共10页
资源描述:

《分布式存储在数据治理场景中的价值》由会员分享,可在线阅读,更多相关《分布式存储在数据治理场景中的价值(10页珍藏版)》请在装配图网上搜索。

1、分布式存储在数据治理场景中的价值【摘要】本文通过对分布式存储的发展路径、架构类型、分布式 理论,以及在数据治理场景中的实践进行阐述,探讨分布式存储技术 在数据治理体系中发挥怎样的价值。【作者】顾黄亮,苏宁消费金融安全运维部负责人, TVP 成员, 开源许可证使用指南( 2018)作者之一,研发运营一体化(DEVOPS )能力成熟度模型作者之一,企业IT运维发展白皮书 核心作者之一,企业级DevOps实战案例-持续交付篇合著作者, twt 社区平台特邀作者、2020 容器云职业技能大赛百位专家委员会成 员。引言随着信息技术呈现井喷式发展,尤其以数字经济为代表的 IT 新基建将成为新经济的发展动能

2、。同时以云计算、大数据、人工智能、区 块链等为代表的数字技术不断涌现,快速向各领域进行融合渗透。在 技术导向更为明显的今天,以数据为核心的数字化转型已是大势所趋。在笔者所在的金融领域,更是数据密集型行业,无论在企业经营的方 方面面,所积累的海量数据资源,通过对这些数字资产进行管理、应 用、治理,并运用到内部管理、过程优化、业务运营和数字反馈等多 个领域。在本篇文章中,通过对分布式存储的发展路径、架构类型、分布 式理论,以及在数据治理场景中的实践进行阐述,一起探讨分布式存 储技术在数据治理体系中发挥怎样的价值。随着人脸识别、人工智能、 AI 安防、物联网、 5G 等新技术新业 务的快速应用,使得

3、数据的增长飞速发展。传统存储系统的集中式架 构,导致在扩展性上无法满足数据增长需求。另一方面,随着新业务 的应用,性能需求也将越来越高,容量与性能的双重增长,导致存储 系统面临新的挑战。1 、存储扩展能力有限在新数据时代,数据的高速增长成为主要特性,存储的扩展性成 为重要考虑指标之一。传统存储采用集中式架构,存储的扩展性受制 于控制器性能,无法提供有效的高扩展能力。另一方面,在传统存储 架构中,数据处理均依靠控制器能力,因此,在海量数据的处理上更 是难以承载。2 、硬件封闭,管理复杂传统存储是个黑盒子,设备管理和数据应用均无法提供可视化操 作,在业务数量越来越多,数据应用越来越复杂的今天,无可

4、视化操 作的管理系统给运维带来很大的难度。例如 LUN 与主机的映射关系管 理、 LUN 的性能、容量规划管理等都需要一对一的调整、管理。无形 中增加了管理难度,提升了运维成本。3 、数据孤岛,数据难共享利用数据的价值在于利用,传统存储系统常常做到了数据存的作用, 但针对数据的管理和利用往往差强人意。目前数据中心一般都有几十 个到上百个业务系统,不同业务系统对存储的需求和使用方式都不一 样,比如用户数据库业务系统需要有高IOPS的块存储服务,广电用户 非线性视频编辑、医院 PACS 系统需要大容量大吞吐的文件存储、对 象存储等等。存储系统独立建设,从而形成数据孤岛。对于共享数据 型业务系统建设

5、或大数据业务建设必须继续重建独立基础架构。重复 投资,架构复杂,回报率低下。4 、可靠性不足 传统存储虽然封闭式独有硬件设计,但在一个引擎情况下,虽然 内置两个控制器,在引擎层面依然存在单点故障风险。在数据冗余方 面,传统存储架构通常采用 raid 冗余方式,通过热备磁盘的方式作为 损害磁盘的替换方案。但raid的数据重构,往往需要整个raid组的所 有磁盘参与重构,从而导致重构的速度很慢而且性能影响较大。如果 此时此 raid 组再次发生磁盘损坏,数据丢失一定会发生。因此,在可 靠性上依然差强人意。二、分布式存储解决之道分布式存储采用分布式架构,利用标准 x86 服务器构建存储资源 池,消除

6、了专用硬件的依赖性,并提供块、文件、对象等多种存储服 务。此外,分布式架构实现了多节点高并发业务处理,每一个节点都 有数据存储和处理能力,所以整个平台具备更高性能和更高可靠性, 能够同时满足数据库等结构化数据高IOPS需求和视频、图像等非结构 化数据高吞吐需求,如下图所示。1、灵活扩展满足海量数据存储需求分布式存储系统,采用 Scale-out 扩展架构,可实现超大集群规 模的部署,从 3 节点存储集群起步,可实现灵活的扩展至数千节点。 存储容量可实现一个集群EB级数据空间。同时由于分布式架构,每一 个存储节点都可以提供独立的性能支撑,在高并发的数据处理中,可 以实现更高的存储性能,更高的带宽

7、吞吐和IOPS。有效的解决海量数 据高扩展和高性能的存储需求。2、弹性扩容与替换 由于实现了分布式存储平台,那么此平台无论多少个节点都可以 看作一个资源池,每一个节点可以看做这个资源池的一个分子。通过 系统预装、软件优化可直接将分子加入到整个平台之中,因而,在存 储性能或者容量资源不够时,均可以通过添加硬件资源来提升存储集 群的相应资源。另一方面,由于硬件采用标准化 X86 服务器,并且集群内每个节 点均通过软件系统进行统一管理,在硬件设备老旧或者故障时,可便 捷的直接更换新硬件,加入集群中。简单方便并且对于上层业务无感 知。友善的提供产品更替。并且,更替节点或者磁盘后,存储系统将会进行自动重

8、建数据,平衡各节点的数据分布。此操作无需人工干预 即可自动完成。降低使用难度。3、可视化、标准化让管理更简单相较于传统存储黑盒子的管理方式,分布式存储实现了标准硬件 的交付,标准硬件服务器的运维管理会更简单。在存储生命周期过程 中的管理具备以下优点。部署上线:存储节点内置与硬件深度优化后的存储系统,30 分钟即可实现部署上线。告别传统的软件部署安装,调优适配,真正实现 了开箱即用。配置规划:按照系统指示,实现资源分配和管理。资源配置可实 现灵活的分配和回收。配置规划全部可视化操作,无需人工手动记录 对应关系,一切均可直观使用管理。管理运维:直观的可视化管理设计,可实现全集群的一页管理。 硬件的

9、 卬u网络、磁盘等健康监控,到逻辑卷、用户数、存储集群 的稳定运行情况均可动态展示,做到实时监控预警。故障排查:故障排场从传统的故障告警实现了提前预防。分布式 存储可实现集群的健康监测,在故障潜伏期即可实现故障提醒。真正实现故障的提前处理,防患未然。4、统一存储资源,实现数据共享共用分布式存储系统通过统一硬件资源池,同时提供块、文件、对象 三种存储服务。因而,数据中心的数据将统一存放到云存储资源池中。通过存储管理系统,可根据用户指令实现数据的调动与共享。另一方面,存储系统内置数据治理,数据分析等于数据强相关的 数据应用系统,可实现便捷的数据处理,并将处理好的完整数据对接 到大数据平台实现大数据

10、的分析与应用。便捷的实现数据价值的挖掘, 助力企业正在实现数字化转型!5、更高的可靠性分布式存储系统在数据冗余方面,通过多副本、纠删码等技术,不仅可以容忍多磁盘的故障不影响数据可靠性,在数据重构修复方面效率也大大提升。由于采用了热备空间概念,将原本一块磁盘重构数据的压力均摊到多磁盘上,速度可提升至1T/30mi n。另一方面,由于 采用了无中心化设计,所有存储节点均可承载业务系统,分布式存储 还能够容忍服务器故障,存储系统依然稳定可用,可靠性更优。ms |性能U集匚豆架构,受陀干控制茎, IOPS、吞吐存在瓶颈|尤其是面对 海虽数裾*性能痕减严董凶1分孔式架构爹节扃并发处圧,貝备奇 | icp

11、s,克吞扩展性QScale up架构扩展受限干机头, 容星.性能面临瓶颈咚1 Scale-out架构.容呈孔性能随存储十応 冶;hij线性拦升仪可靠性3冗金主要靠双控和raid.jB主机依1 黙有单点故障凤险,且RAID数据| 修复慢Q冗余采州分祁式架构多节点)、数 据冗金采用划删码、副本等更高效的保 护机制以易用性封闭如卷管理、故障昵1扩容等操件难度蛊,一般需专Ik 1 存储一祥丿帀:幵放式管出,只在妄管理标准试刖掘务 器!所有运维操作均实現可观化1普通 工程师X天即可快遠上升成本P:丈曲碇J初期投入扩容、维1 保等成本高12.存储不同案型的数摇需多套设i丄莎淮屈6五FJ采购、?容、维保等|

12、成本低白1 2套立合时捉任块、对象、文牛 节五、常见的几种分布式存储以及应用场景1、HDFS主要用于大数据的存储场景,是 Hadoop 大数据架构中的存储组 件。 HDFS 在开始设计的时候,就已经明确的它的应用场景,就是大 数据服务,主要应用于下列几种场景。对大文件存储的性能比较高,例如几百兆,几个 G 的大文件。因 为 HDFS 采用的是以元数据的方式进行文件管理,而元数据的相关目 录和块等信息保存在 NameNode 的内存中, 文件数量的增加会占用 大量的 NameNode 内存。如果存在大量的小文件,会占用大量内存 空间,引起整个分布式存储性能下降,所以尽量使用 HDFS 存储大文

13、件比较合适。适合低写入,多次读取的业务。就大数据分析业务而言,其处理 模式就是一次写入、多次读取,然后进行数据分析工作,HDFS的数据 传输吞吐量比较高,但是数据读取延时比较差,不适合频繁的数据写 入。HDFS 采用多副本数据保护机制,使用普通的 X86 服务器就可以 保障数据的可靠性,不推荐在虚拟化环境中使用。2、CephCeph 是目前应用最广泛的开源分布式存储系统,已得到众多厂商 的支持,许多超融合系统的分布式存储都是基于 Ceph 深度定制。而 且 Ceph 已经成为 LINUX 系统和 OpenStack 的“标配”,用于支持 各自的存储系统。Ceph可以提供对象存储、块设备存储和文

14、件系统存 储服务,同时支持三种不同类型的存储服务的特性,这是 Ceph 最鲜 明的特点,主要应用于下列几种场景。Ceph没有采用HDFS的元数据寻址的方案,而且采用CRUSH算 法,数据分布均衡,并行度高。而且在支持块存储特性上,数据可以 具有强一致性,可以获得传统集中式存储的使用体验。对象存储服务,Ceph支持Swift和S3的API接口。在块存储方 面,支持精简配置、快照、克隆。在文件系统存储服务方面,支持 Posix接口,支持快照。但是目前Ceph支持文件的性能相当其他分布 式存储系统,部署稍显复杂,性能也稍弱,一般都将 Ceph 应用于块 和对象存储。Ceph 是去中心化的分布式解决方

15、案,需要提前做好规划设计,对 技术团队的要求能力比较高。特别是在 Ceph 扩容时,由于其数据分 布均衡的特性,会导致整个存储系统性能的下降。3、Swift主要面向的是对象存储,和 Ceph 提供的对象存储服务类似。主 要用于解决非结构化数据存储问题,和 Ceph 的对象存储服务的主要 区别有几个方面。客户端在访问对象存储系统服务时, Swift 要求客户端必须访问Swift网关才能获得数据。而Ceph使用一个运行在每个存储节点上的 OSD获取数据信息,没有一个单独的入口点,比Swift更灵活一些。数据一致性方面,Swift的数据是最终一致,在海量数据的处理效 率上要高一些,但是主要面向对数据

16、一致性要求不高,但是对数据处 理效率要求比较高的对象存储业务。而 Ceph 是始终跨集群强一致性。 主要的应用场景,在 OpenStack 中,对象存储服务使用的就是 Swift, 而不是Ceph。六、分布式存储的基本理论1、一致性和可用性由于异常的存在,分布式存储系统设计时往往会将数据冗余存储 多份,每一份称为一个副本。这样,当某一个节点出现故障时,可以 从其他副本上读到数据。可以这么认为,副本是分布式存储系统容错 技术的唯一手段。由于多个副本的存在,如何保证副本之间的一致性 是整个分布式系统的理论核心。数据一致性在平常软件开发的术语中能经常看见,一般可以分成 三种类型,分别为时间一致性、事

17、务一致性和数据一致性。时间一致性,顾名思义,要求所有数据组件的数据在任意时刻都 是完全一致的。事务一致性,只能存在在事务开始前的和事务完成之后,在事务 过程中数据有可能不一致,举一个简单的例子进行说明。在银行转账 过程中,甲转固定金额一万元给乙,甲的账户金额扣减一万,乙的账 户金额加上一万,在事务开始前和事务完成之后都能保证甲和乙的帐 是对上的,那么这就是事务一致性,但是在事务过程中有可能会出现 甲的账户金额扣减一万, 乙的账户金额没有增加一万的情况,这就是 事务一致性出现问题。数据一致性,在应用程序中涉及多个不同的单机事务,只有在所有的单机事务完成之前和完成之后,数据是完全一致的。分布式系统

18、区别于传统单机系统在于能够将数据分布到多个节点, 并在多个节点之间实现负载均衡。数据分布的方式主要有两种,一种 是哈希分布,如一致性哈希,代表系统为Amazon的Dynamo系统,Openstack的Swift系统;另夕卜一种 方法是顺序分布,即每张表格上的数据按照主键整体有序,代表系统 为Google的Bigtable系统。Bigtable将一张大表根据主键切分为有 序的范围,每个有序范围是一个子表。3、复制 为了保证分布式存储系统的高可靠和高可用,数据在系统中一般 存储多个副本。当某个副本所在的存储节点出现故障时,分布式存储 系统能够自动将服务切换到其他的副本,从而实现自动容错。分布式 存

19、储系统通过复制协议将数据同步到多个存储节点,并确保多个副本 之间的数据一致性。4、分布式协议分布式协议有很多,其中以两阶段提交和 Paxos 协议最具代表性 两阶段提交协议(2PC)或三阶段提交(3PC )用于保证跨多个节点操 作的原子性,也就是说,跨多个节点的操作要么在所有节点上全部执 行成功,要么全部失败。 Paxos 协议用于确保多个节点对某个投票 (例如哪个节点为主节点)达成一致。七、分布式存储在数据治理过程中的定位 为构建数据治理体系,企业不仅要结合业务需求合理规划,更要 依托信息技术疏理数据内容、安全存储数据、高效利用数据,存储系 统必然是重要支撑。现阶段,多数企业倾向于通过搭建数

20、据湖( Data Lake )来存储包括结构化、半结构化、非结构化数据在内的数据资源, 以供上层调用。这样一来,分布式存储在企业数据治理体系中,无疑 扮演着重要角色。那么,分布式存储、数据湖、数据治理之间有何关系呢?本质上, 分布式存储是提供存储功能和特性的软件,它将数据从硬件架构上解 放出来,使用户专注于数据蕴含的价值。分布式存储通过统一的虚拟 管理平台,与前端应用、管理程序、物理空间进行交互,极大简化数 据管理。数据湖是以自然格式存储的数据的系统,一般包括结构化数 据、半结构化数据、非结构化数据和二进制数据等全部原始数据资源。 简而言之,要实现数据存储和管理的优化,基于分布式存储搭建统一

21、数据湖无疑是极佳的选择。底层硬件设备提供物理存储空间,存储引擎统筹硬件资源搭建数 据湖存储,数据湖用来存储所有的原始数据资源,数据湖引擎根据业 务应用的需求灵活调用数据湖中的数据,用以跨业务检索或数据共享 等,还可以通过AI、大数据分析等应用挖掘数据价值。分布式存储以 分布式架构、弹性扩展、海量数据支撑、管理运维简单等优势,帮助 企业搭建稳定可靠的数据平台,轻松实现海量数据的存储和管理,依 靠AI后处理框架挖掘数据价值,成为企业治理数据的好帮手。八、分布式存储在数据治理过程中的优势一般来说,分布式存储在数据治理过程中的优势作为分布式底座 而存在,在很多企业中,称之为数据中台。数据中台解决方案,

22、以分布式存储作为能力后台,为数据中台提 供存储支撑。基于分布式架构搭建统一存储池;通过生命周期管理、 智能 QoS 等实现自动化管理;集成 AI 后处理框架,整合企业现有的 AI 能力,将数据价值最大化释放,为企业提供数据治理的技术支持。 数据中台解决方案能够帮助企业解决数据孤岛、实现数据有序治理和 高效利用,一般有下列几种优势。1、解决海量存储需求针对企业缺乏统一数据视图、存在数据孤岛等问题,分布式存储 因其抽象化、池化等特性,从根本上解决了这类问题。软硬件解耦使 得存储软件不再依赖于专有硬件。通过虚拟化,将物理存储空间虚拟 成统一资源池,建立统一命名空间,构建多业务共享的数据湖,让数 据自

23、由分配、使用和调度,消除信息孤岛,提高资源利用率。其全分 布式架构,弹性扩展灵活,支撑EB级容量,满足企业对容量、性能等 需求。针对元数据、主数据管理等问题亦有应对之策。所有节点软硬 件配置完全对等,无独立的元数据或管理节点,数据均衡分布在每个 节点上,任一节点故障不会影响读写访问,轻松实现按需部署、平滑 扩容。2、解决智能管理需求分布式存储提供丰富的API,根据业务应用要求,自动按需部署存储资源,实现基于存储策略的自动化管理目标,极大地简化管理,节省基础设施投入,降低运维成本。其自定义管理的策略,实现生命周 期自动化管理;通过智能缓存、数据分层等特性,让存储介质“物尽 其用”,在数据访问性能

24、和存储成本之间实现平衡。3、解决数据价值释放需求伴随 AI 技术的兴起,数据治理开始向“智能化”转变。与传统存 储不同,分布式存储能够实现内容感知,配合前端应用对海量数据进行大数据分析和价值挖掘。目前绝大多数的数据中台解决方案,均集 成了 AI 后处理框架,帮助企业更好的实现 AI 赋能和价值挖掘;同时 还支持 Hadoop、Spark 等大数据分析系统,充分释放数据价值。面 对诸多难题,分布式存储帮助企业打造智能化的数据治理平台,解决 数据的存储、管理、共享等一系列问题,极大地提升数据治理水平, 为数字化转型提供有力支撑九、结语随着数字化转型的进程不断推进,企业逐步深刻认识数据资源对 数字化转型的重要意义,促使相关的数据工具技术也不断的迭代和更 新。分布式存储在未来以更快的性能、更高的灵活性和开放性、更强 的扩展性,实现更便捷的管理、更简单的运维以及更少的投入,帮助 企业在数据治理过程中更好的进行企业数据的管理、保护和变现。原题:分布式存储在数据治理场景中价值定位及优势解读

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!