数据存储类型分析

上传人:时间****91 文档编号:142032632 上传时间:2022-08-24 格式:DOC 页数:7 大小:33.50KB
收藏 版权申诉 举报 下载
数据存储类型分析_第1页
第1页 / 共7页
数据存储类型分析_第2页
第2页 / 共7页
数据存储类型分析_第3页
第3页 / 共7页
资源描述:

《数据存储类型分析》由会员分享,可在线阅读,更多相关《数据存储类型分析(7页珍藏版)》请在装配图网上搜索。

1、数据存储类型分析胡经国本文作者的话云计算具有很强的知识性和专业性。对于业外读者来说,云计算可谓“博大精深”。业外公众要学习云计算,有必要循序渐进地学习有关云计算的一系列基础知识。本文作为漫话云计算系列文稿和笔者学习云计算的笔录之一,供云计算业外读者进一步学习和研究参考。希望能够得到大家的指教和喜欢!下面是正文一、针对数据存储形式的数据类型分析结构化数据、非结构化数据和半结构化数据,是针对数据存储形式的一种数据类型分析。1、结构化数据结构化数据,是指行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。结构化数据,是指以固定字段驻留在一个记录或文件内的数据。它事先被人为组织过,也依赖于一

2、种确保数据如何存储、处理和访问的模型。结构化查询语言(SQL)通常用于管理在数据库中的结构化数据表。结构化数据,简单来说就是数据库里的数据;具体到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。这些应用需要哪些存储需求呢?基本包括:高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。链接:ERPERP (EnterpriseResourcePlanning,企业资源计划),由美国 Gartner Group 公司于1990年提出。企业资源计划是MRP II(企业制造资源计划)下一代的制造业系统和资源计划软件。除了MRP I

3、I 已有的生产资源计划、制造、财务、销售、采购等功能外,还有质量管理,实验室管理,业务流程管理,产品数据管理,存货、分销与运输管理,人力资源管理和定期报告系统。目前,在中国 ERP 所代表的含义已经被扩大,用于企业的各类软件,已经统统被纳入 ERP 的范畴。它跳出了传统企业边界,从供应链范围去优化企业的资源,是基于网络经济时代的新一代信息系统。它主要用于改善企业业务流程以提高企业核心竞争力。链接:HIS医院信息系统(HIS)是管理和利用医院信息的计算机网络系统,是一个大型的数据库应用系统。链接:教育一卡通教育一卡通:、教育一卡通主要分为三部分:基础教育、成人教育和职业教育。、基础教育部分又包含

4、了幼教平台、学生平台(中、小学生以及高中生)、教师平台。、职业教育主要针对各行各业从业人员所需的再教育课程,课程与国家职业教育要求相对应,学完可根据国家规定时间参加考试,获相关专业的证书。、成人教育主要面对企业在职员工、负责人、公务员及其它需要学习的人群;提供网上在线答疑,可根据众多学者需求提供相应课程。一卡通:、就是在同一张卡上实现多种不同功能的智能管理。本质上是一套由卡片、器具和上位管理软件所构成的特殊信息管理系统。其核心内容是利用卡片这种特定的物理媒介,实现从业务数据的生成、采集、传输到汇总分析的信息资源管理的规范化和自动化。、一卡通系统最根本的需求是信息共享、集中控制。、由于信息共享、

5、集中控制的基本思想,一卡通被广泛应用于各行各业,比如社区一卡通、校园一卡通、企业一卡通等。链接:数据容灾数据容灾系统,就是为计算机信息系统提供的一个能应付各种灾难的环境。当计算机系统在遭受如火灾、水灾、地震、战争等不可抗拒的自然灾难以及计算机犯罪、计算机病毒、掉电、网络/通信失败、硬件/软件错误和人为操作错误等人为灾难时,容灾系统将保证用户数据的安全性(数据容灾);甚至一个更加完善的容灾系统,还能提供不间断的应用服务(应用容灾)。可以说,容灾系统是数据存储备份的最高层次。一般来说,为了保护数据安全和提高数据的持续可用性,企业要从RAID保护、冗余结构、数据备份、故障预警等多方面考虑。一套完整的

6、容灾系统应该包括本地容灾和异地容灾。对于那些关键业务不能中断的用户和行业,如电信、海关、金融行业来说更应如此。链接:RAIDRAID(Redundant Array of Inexpensive Disks,廉价冗余磁盘阵列),顾名思义,它由几个廉价、有冗余能力的磁盘组成的磁盘组,通过一个控制器协调运动机制使单个数据流依次写入这几个磁盘中。磁盘阵列是一个容量巨大的磁盘组,利用个别磁盘提供数据所产生加成效果提升整个磁盘系统效能。利用这项技术,将数据切割成许多区段,分别存放在各个硬盘上。磁盘阵列还能利用同位检查(Parity Check)的观念,在数组中任意一个硬盘出现故障时,仍可读出数据;在数据

7、重构时,将数据经计算后重新置入新硬盘中。链接:冗余冗余,是指重复配置系统的一些部件;当系统发生故障时,冗余配置的部件介入并承担故障部件的工作,由此减少系统的故障时间。2、非结构化数据、非结构化数据的概念相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据,称为非结构化数据。它包括所有格式的办公文档、文本、图片、图像、音频、视频等。非结构化数据是结构化数据的反面,是指没有一个预先定义的数据模型或不是以一种预先已经定义好的方式进行组织的数据。它不必以某种方式组织,直接按照学科方式分组分类,主要是文本,但也可以是图像、音频和视频。非结构化数据,包括视频、音频、图片、图像、文档、文本等形式的数据

8、。具体到典型案例中,比如医疗影像系统、教育视频点播、视频监控、国土GIS(地理信息系统)、媒体资源管理等具体应用。这些行业对于存储需求包括:数据存储、数据备份以及数据共享等。、非结构化数据:新价值和新挑战IT调研公司IDC研究表明,数字领域当前存在着1.8万亿GB的数据。其中,除了传统数据库的结构化数据以外,还有像文件、文献、表单、影像等无以计量的非结构化数据。比较记录了生产、业务、交易和客户信息等的结构化数据,非结构化数据涵盖了更为广泛的内容。它包括:如合约、发票、书信与采购记录等营运内容;如文书处理、电子表格、简报档案与电子邮件等部门内容;如HTML与XML等格式信息的Web内容;以及如声

9、音、影片、图形等媒体内容。目前,非结构化数据的内容占据了当前数据海洋的80%,并将在2020年之前以44倍的速度迅猛增长。同时,因为非结构化数据的信息量和信息的重要程度很难被界定,分析成为了难点。如果说结构化数据用详实的方式记录了企业的生产交易活动,那么非结构化数据则是掌握企业命脉的关键内容,所反映的信息蕴含着诸多企业效益提高的机会。因此,只有解决非结构化数据的分析困难,才能有效挖掘这些数据背后的价值,克服逐渐攀升的数据量和复杂性对企业生产发展的重大阻碍,驱动企业价值提升。3、半结构化数据半结构化数据,就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全非结构化数据(如声音、

10、图像文件等)之间的数据。例如,HTML文档就属于半结构化数据。半结构化数据是结构化的数据,但是其结构变化很大。因为,我们要了解数据的细节,所以不能将数据简单地组织成一个文件按照非结构化数据处理。由于其结构变化很大,因而也不能够简单地建立一个二维表和它对应。半结构化数据,包括邮件、HTML文档、报表、资源库等等。其典型场景如:邮件系统、Web集群、教学资源库、数据挖掘系统、档案系统等等。这些应用的存储需求包括:数据存储、数据备份、数据共享以及数据归档等基本存储需求。链接:Web集群Web集群是由多个同时运行同一个Web(全称World Wide Web,全球广域网,也称为万维网)应用的服务器组成

11、的集群,在外界看来就像一个服务器一样,这些多个服务器共同来为客户提供更高性能的服务。“集群”更标准的定义是:一组相互独立的服务器在网络中表现为单一的系统,并以单一系统的模式加以管理,此单一系统为客户工作站提供高可靠性的服务。二、基于网络应用的非结构化数据库1、非结构化数据库概述随着网络技术的发展,特别是Internet(互联网)和Intranet(企业内部网)技术的飞速发展,使得非结构化数据的数量日趋增大。主要用于管理结构化数据的关系型数据库的局限性暴露得越来越明显。数据库技术相应地进入了“后关系型数据库时代”,发展进入了基于网络应用的非结构化数据库时代。基于网络应用的非结构化数据库,亦即基于

12、Internet、Intranet的数据库,称为非结构化Web数据库,通常简称为非结构化数据库。非结构化数据库,是指其字段长度可变,其变长纪录由若干不可重复和可重复的字段组成,而每个字段又可以由可重复或不可重复的子字段构成的基于Internet、Intranet的数据库。用它不仅可以处理结构化数据(如数字、符号等信息),而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)并在互联网上发布。简单地说,非结构化数据库就是字段长度可变的数据库。非结构化数据库,主要是针对非结构化数据而产生的。与以往流行的关系型数据库相比,其最大的区别在于:它突破了关系型数据库结构定义不易改变和数据定

13、长的限制,支持重复字段、子字段以及变长字段,并实现了对变长字段和重复字段进行处理和数据项的变长存储管理。在处理连续信息(包括全文信息)和非结构化信息(包括各种多媒体信息)中,具有传统关系型数据库所无法比拟的优势。2、非结构化数据库IBase在中国,非结构化数据库以北京国信贝斯(iBase)软件有限公司的iBase数据库为代表。IBase数据库,是一种面向最终用户的非结构化数据库。它在处理非结构化信息、全文信息、多媒体信息和海量信息等领域以及Internet/Intranet应用上处于国际先进水平,在非结构化数据的管理和全文检索方面获得了突破。IBase数据库主要有以下几个优点:、在Intern

14、et应用中,存在大量的复杂数据类型。iBase通过其外部文件数据类型,可以管理各种文档信息、多媒体信息;并且对于各种具有检索意义的文档信息资源,如HTML、DOC、RTF、TXT等,还提供了强大的全文检索能力。、它采用子字段、多值字段以及变长字段的机制,允许创建许多不同类型的非结构化的或任意格式的字段,从而突破了关系型数据库非常严格的二维表结构,使得非结构化数据得以存储和管理。、iBase将非结构化和结构化数据都定义为资源。这使得非结构化数据库的基本元素就是资源本身,而数据库中的资源可以同时包含结构化和非结构化的信息。所以,非结构化数据库能够存储和管理各种各样的非结构化数据,实现了数据库系统数

15、据管理到内容管理的转化。、iBase采用了面向对象的基石,将企业业务数据和商业逻辑紧密结合在一起,特别适合于表达复杂的数据对象和多媒体对象。、iBase是适应Internet发展的需要而产生的数据库。它基于Web是一个全球广域网的海量数据库的思想,提供一个网上资源管理系统iBase Web,将网络服务器(Web Server)和数据库服务器(Database Server)直接集成为一个整体。这就使数据库系统和数据库技术成为Web的一个重要有机组成部分,突破了数据库仅充当Web体系后台角色的局限,实现数据库和Web的有机无缝组合。从而,为在Internet/Intranet上进行信息管理乃至开

16、展电子商务应用,开辟了更为广阔的领域。、iBase全面兼容各种大中小型的数据库,对传统关系型数据库,如Oracle、Sybase、SQLServer、DB2、Informix等提供导入和链接的支持能力。通过从上述分析可以预言,随着网络技术和网络应用技术的飞速发展,完全基于Internet应用的非结构化数据库,将成为继层次数据库、网状数据库和关系型数据库之后的又一重点、热点技术。链接:记录(Record)与字段(field)在数据库中,表的每一“行”叫做一个“记录”,每一个记录包含这一行中的所有信息,就像在通讯录数据库中某个人的全部信息。但是,记录在数据库中并没有专门的记录名,常常用它所在的行数

17、表示这是第几个记录。在数据库中,存放在表行列交叉处的数据叫做“值”;它是数据库中最基本的存储单元;它的位置要由这个表中的记录和字段来定义。在数据库中,大多数时候,表的每一“列”叫做一个“字段”。每个字段包含某一专题的信息。就像在“通讯录”数据库中,“姓名”、“联系电话”这些都是表中所有行共有的属性,所以把这些列相应地称为姓名字段和联系电话字段。但是有时候,字段也不一定是表中的列。三、半结构化数据存储常用方式先举一个半结构化数据的例子:存储员工的简历。它不像员工基本信息那样一致,每个员工的简历大不相同。有的员工的简历很简单,比如只包括教育情况;而有的员工的简历却很复杂,比如包括工作情况、婚姻情况

18、、出入境情况、户口迁移情况、党籍情况、技术技能等等。还有可能有一些我们没有预料的信息。通常我们要完整的保存这些信息并不是很容易的。因为,我们不会希望系统中的表的结构在系统的运行期间进行变更。下面介绍半结构化数据存储的两种常用方式。、化解为结构化数据这种方法通常是对现有的简历中的信息进行粗略的统计整理,总结出简历中信息所有的类别,同时考虑系统真正关心的信息。对每一类别建立一个子表,比如上例中我们可以建立教育情况子表、工作情况子表、党籍情况子表等等;并在主表中加入一个备注字段,将其它系统不关心的信息和已开始没有考虑到的信息保存在备注中。优点:查询统计比较方便。缺点:不能适应数据的扩展,不能对扩展的

19、信息进行检索,对项目设计阶段没有考虑到的同时又是系统关心的信息的存储不能很好地处理。、用XML格式来组织并保存到CLOB字段中XML(eXtensible Markup Language,可扩展标识语言),可能是最适合存储半结构化的数据了。将不同类别的信息保存在XML的不同的节点中就可以了。可扩展标记语言XML是一种简单的数据存储语言。它使用一系列简单的标记描述数据,而这些标记可以用方便的方式建立。虽然XML比二进制数据要占用更多的空间,但XML极其简单,易于掌握和使用。优点:能够灵活的进行扩展,信息进行扩展时只要更改对应的DTD或者XSD就可以了。缺点:查询效率比较低,要借助XPath来完成

20、查询统计。随着数据库对XML的支持的提升,性能问题有望能够很好地解决。链接:CLOBCLOB(Character Large Object,字符大对象)是一种数据库中的数据类型。链接:DTDDTD(Document Type Definition,文档类型定义)的作用是定义 XML 文档的合法构建模块。它使用一系列的合法元素来定义文档结构。DTD 可被成行地声明于 XML 文档中,也可作为一个外部引用。链接:XSDXSD(XML Schemas Definition)是指XML结构定义。XML Schema 是DTD的替代品。XML Schema语言也就是XSD。链接:XPathXPath是Xml Path Language(可扩展标记语言路径语言)的英文缩写。它是一种在XML文档中查找信息的语言;被开发者采用当作小型查询语言。2016年12月22日编写于重庆2017年1月31日修改于重庆

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!