主数据管理 (1)

上传人:jin****ng 文档编号:123090015 上传时间:2022-07-21 格式:DOC 页数:18 大小:398.50KB
收藏 版权申诉 举报 下载
主数据管理 (1)_第1页
第1页 / 共18页
主数据管理 (1)_第2页
第2页 / 共18页
主数据管理 (1)_第3页
第3页 / 共18页
资源描述:

《主数据管理 (1)》由会员分享,可在线阅读,更多相关《主数据管理 (1)(18页珍藏版)》请在装配图网上搜索。

1、主数据管理(MDM Master Data Management )描述了一组规程、技术和解决方案, 这些规程、技术和解决方案用于为所有利益相关方(如用户、应用程序数据仓库、流程以 及贸易伙伴)创建并维护业务数据的一致性、完整性、相关性和精确性。主数据管理的关键就是“管理”。主数据管理不会创建新的数据或新的数据纵向结构。相 反,它提供了一种方法,使企业能够有效地管理存储在分布系统中的数据。主数据管理使用 现有的系统,它从这些系统中获取最新信息,并提供了先进的技术和流程,用于自动、准确、 及时地分发和分析整个企业中的数据,并对数据进行验证。主数据管理解决方案具有以下特性:在企业层面上整合了现有纵

2、向结构中的客户信息以及其他知识和深层次信息共享所有系统中的数据,使之成为一系列以客户为中心的业务流程和服务实现对于客户、产品和供应商都通用的主数据形式,加速数据输入、检索和分析支持数据的多用户管理,包括限制某些用户添加、更新或查看维护主数据的流程的能 力集成产品信息管理、客户关系管理、客户数据集成以及可对主数据进行分析的其他解 决方案。由于和主数据管理关联的方法和流程的运行与企业的业务流系统及其他系统彼此独 立,因此这些方法和流程不仅能检索、更新和分发数据,还能满足主数据的各种用途。主数 据管理通过将数据与操作应用程序实时集成来支持操作用途。主数据管理还通过使用经过授 权的流程来创建、定义和同

3、步主数据来支持协作用途。最后,主数据管理通过事件管理工具 事先将主数据推送至分析应用程序来支持分析用途。MDM为继承和管理参考数据提供免代码、低维护的解决方案。在MDM系统成为数据 仓库的维数据的确定来源后,它使数据仓库能够侧重于卷管理和数据交付的数据管理目标。简而言之,主数据管理提供以下功能:1. “匹配与合并”逻辑,用于从一个或多个源系统识别并整合重复记录2. 宽泛的单元格级别关联和历史记录,为数据内容提供了详细的审计跟踪3. 适用于跨所有数据源和应用程序的所有关系数据的中央资料库这些功能将极大降低与以下所述的数据仓库有关的总体开发和维护工作:1. MDM共享维度对于数据仓库的共享维度,M

4、DM系统将是合规,已集成、已清洗和标准化的单一数据 源。此系统将消除在填充合规的数据结构时所牵涉的大部分转换工作,使数据仓库资源能够 着重于回答业务问题,而不是集成数据。2. MDM渐变维度对于保持维度变更的历史记录而言,渐变维度是最为有效和使用最为频繁的方法。通 过提供进行历史记录跟踪的选项,MDM系统解决了这个性能问题。它可以记录所有对参考 数据实体的更改,解放数据仓库,使之可以在维度渐变时权利跟踪数据细分的更改。当数据 仓库维度增长放缓时,它们可以将查询和加载性能受到的影响降至最低。如果用户希望查询 某记录的非渐变维的历史记录,他们可以展开浏览MDM系统中的历史记录表。3. MDM和数据

5、沿袭数据仓库元数据和沿袭解决方案一般仅限于提供结构化和流程沿袭oMDM使用户不必 再执行费时的手动数据跟踪,因为MDM为每个记录上的每个字段均保留了详细的数据沿袭 (即在单元格级别的跟踪数据沿袭)。对于基础对象中的每个数据单元格,MDM系统可以 识别为单元格提供值的源系统,尤其根据值的最新更新时间来识别该值是由哪个源系统中的 哪条记录提供的。MDM系统还跟踪所有记录合并的历史记录。主数据集成主要实现的是数据的接收和分发两个功能。针对系统中已经完成审核的主数 据,系统管理员可以通过配置接口内容,将符合要求的主数据分发到目的系统中,将主数据 集成到外部系统中;而外部系统也可以选择需要处理的主数据信

6、息,调用系统中对外发布的 接口,完成数据的接收。在主数据模型中,我们设置一类主数据通用的属性,这一类属性能够被多个主数据公用。 我们创建这样一个模型,设置它的公共属性以及一些必要的信息,并将这样一个模型存储于 系统中,那么我们在创建主数据的时候就可以调用这样的主数据模型,在主数据模型上面进 行主数据的创建,我们可以在此主数据模型上面添加新的属性,新的条件以适应我们需要创 建的主数据。通过这样的一个设计,使用者可以比较方便的创建一个主数据,创建一类信息 的主数据模型之后,下次在创建主数据时直接调用模型就好,而不必再次进行那些公用属性 的创建过程,极大减少了使用者的工作量。在主数据模型功能中,又分

7、为主数据模型创建,主数据模型审核,主数据模型查询和主 数据模型维护。主数据模型创建就是创建实体数据模型的阶段,在创建模型的过程中,首先需要输入模 型的基本信息,例如模型代码、模型名称、是否启用分类结构、是否启用分类权限等信息。 这些基本信息是模型所必须具备的信息,也是一类主数据都需要的信息。在输入完主数据模 型的基本信息后,还需要对主数据模型进行属性配置、元属性配置、编码规则配置、校验规 则配置、显示列配置和附件配置。在属性配置中,系统管理员可以变更当前主数据模型中的任意属性信息,以求达到完整 的主数据模型信息记录。在系统中属性分为三种类型,分别是普通属性,列表属性和树形属 性。普通属性即该属

8、性不涉及到一对多或包含关系的属性,这种信息就以普通属性来存储, 如供应商编码、供应商名称等一对一的信息就采用普通属性进行处理;列表属性即该属性存 在一对多的关系,这种信息需要以列表的属性来存储,如供应商主数据中的银行账户属性, 一个供应商可以对应多个银行账户,所以银行账户属性设置为列表属性;树形属性即该属性 存在包含关系,这种信息需要以树形属性存储。除了属性的分类以外,对于每一个属性还需 要对属性编码和属性名称等信息进行配置。创建不同的属性是为了在属性中进行元属性的配 置做准备。元属性配置在属性保存后进行。前文中已经提到过,元属性就是属性的属性,也就是属 性的再次细分。比如物料信息中的规格属性

9、,就可以再次进行细分,它的元属性就可以再次 包括物料的长、宽、高等信息,这些信息就是元属性。在配置元属性时需要选定其所属的属 性信息以便系统明确二者的从属关系。除了需要配置元属性的名称编码以外,系统还为元属 性提供了类型,长度,是否必填项,默认值,取值方式,附表,引用主数据模型等方面的配 置。这里挑出主要内容进行说明,在类型配置中,可将字符、整形、浮点小数、日期作为该 元属性的类型;限定元属性输入内容的长度;系统提供 7 种取值方式:文本、下拉框、可 编辑的下拉框、弹出窗口、可编辑弹出窗口、元属性组合、可编辑的元属性组合,其中可编 辑的元属性组合可以由其他若干个元属性组合成为一个元属性;当取值

10、方式中存在下拉框、 元属性组合或弹出窗口时,可以再附表中对设置预定值以供选择。除了以上配置以外,系统还提供了对于元属性前置符号、后置符号、连接符号和计量单 位的配置功能。在校验规则配置中,主要针对主数据模型中的元属性进行校验。校验规则分为唯一性校 验和关联性检验。关联性校验主要针对元属性之间的关系进行校验,是对于多个元属性的组合进行的校 验,关联性校验中也需要进行条件表达式,元属性选定,校验规则级别和校验规则的设置, 主数据模型是主数据创建的基础,只有实现了主数据模型的功能后才可以进行主数据的 管理。拿程序的思想来作为类比,主数据模型就是创建一个类,而并没有去真正的使用这个 类;而创建主数据就

11、是对这个类进行实例化的过程,经过主数据的创建以后,我们在对这个 主数据进行变更,审核,查询,归档和集成等操作,也就相当于对这个实体对象进行各种操 作。主数据管理分为主数据创建,主数据变更,主数据审核,主数据查询和主数据归档。主数据创建中实现的是主数据的创建功能,每一类主数据的创建都是在相应主数据模 型下来进行的。主数据的创建中除了需要对于主数据的必要信息进行初始化以外,还需要对 于属性、元属性、编码、附件进行配置,并且所填写的主数据信息还需要符合校验规则和编 码规则。在填写主数据信息时,所有红色标志的元属性信息都为必填项,不填写将给出错误 提示信息;前置符号、后置符号、连接符和计量单位的校验只

12、针对元属性值存在的情况下, 如果元属性值未填,则以上符号不作为必填项校验;编码规则配置方面,如果主数据模型编 码采用的是自动配置,则在主数据创建时不必进行编码的配置;如果选择手动配置方式,除 了对编码必要的配置以外,还需要对于编码规则中的各个编码段进行配置,进而才能完成编 码配置。主数据创建的过程中还可以进行附件的上传,主数据模型中的附件是所有该类主数 据的公共附件,主数据创建中上传的附件是各个主数据自身的附件。将以上信息填写好后, 便可以进行主数据信息的保存。如果主数据的所有信息与主数据模型的编码规则,校验规则 都不冲突,那么该主数据保存成功,完成主数据的创建;如果主数据的信息与编码信息,检

13、 验规则冲突,则系统给出冲突的信息和冲突因素,此时主数据不能完成保存,但是系统提供 主数据的暂存功能,能够把当前的信息暂时存储在数据库中的临时表中,对冲突信息更改后 在进行保存,完成主数据的创建。主数据变更中实现的是对于主数据信息的变更操作,用户通过点击主数据列表中的超 链接,进入到主数据详细信息的页面,之后再进行相应的修改操作。需要注意的是主数据变 更也需要进行工作流的绑定,按照工作流的流程进行逐层的审核工作。如果主数据中的内容 没有变更,那么不能进行变更数据的提交工作。变更通过后,变更之前的版本信息将被保存 在历史数据中,用户可以通过历史版本号查看到主数据的变更过程。主数据审核实现的是主数

14、据审核的功能,拥有当前流程环节的用户可以进行数据的审 核、拒绝至提交人、拒绝至审核人的操作。同一操作环节的用户可以进行数据的认领审核功 能,超出时限的个人认领任务将会重新回到未审核数据中。只有审核完全通过的数据才会在 历史版本中进行收录。同时在审核时需要填写审核意见,方便其他人员对数据操作。主数据集成实现的是主数据管理平台与第三方系统数据的交换功能。系统提供两种方 式:被动式接收请求发送数据方式和主动发送数据方式。在被动式服务中,第三方系统作为 发送端进行主数据的请求,主数据系统根据请求内容,将符合条件的主数据通过接口返回给 第三方,并且其数据格式满足第三方需求。主动式服务是由主数据系统作为发

15、送端,向第三 方进行请求,第三方应答后进行数据的集成操作。在主动式服务时,系统提供了定时分发、 即时分发和手动分发三种分发策略。手动分发由系统操作人员选定主数据,进行数据交换。 对于分发失败的数据,可再次调整接口进行数据的再次分发;自动分发采用定时器的方式, 系统自动向第三方系统定时发送数据,对于失败的数据会将失败的原因记录下来,超过设定 的失败次数,数据将不会进行分发。而是由系统操作人员进行手动分发或数据的调整。在数 据查询功能中,能够基于各类主数据的元属性信息进行快速查询、高级查询、模糊查询和精 确查询,同时支持数据集成信息的检索。使用基于主数据管理系统的方法来建立数据集成系统,可以解决数

16、据集成中的如下两 个关键问题:1、能够对参与集成的各应用系统中的数据实施单独管理,因此可以确保数据的完整 性、可靠性,提高数据质量,避免各应用系统中数据的不一致性;2、企业的核心数据往往要求在多个业务系统中被使用,主数据管理的方法可以保证 参与集成的业务系统都能够实时地访问到这些数据。主数据管理是一项针对数据集成问题的新兴的解决方案,主数据管理解决方案相关的 支撑技术主要包括如下几个方面:源数据剖析、数据标准化、匹配、记录联合以及同步。另 外,主数据管理的解决方案需要引入元数据管理来标准化主数据的表示。Oracle则在客户主数据管理系统UCM (Universal Customer Maste

17、r,全局客户主数据) 中实施了主数据管理。该系统包含客户主数据模型存储、数据质量控制和额外的数据集成管 理三个模块。 Oracle 使用如下的方式保证主数据系统中新进入的数据的质量:当记录进入 主数据系统时,先会在主数据系统里寻找可能匹配的记录,如果结果认为是不匹配,则将进 入处理不匹配流程来增加一条新记录;如果是分值足够高,则进入自动匹配流程把该记录和 原有记录进行数据存活规则处理并合并记录;如果是分值不足够高,则需要人工来决定该记 录是新记录还是需要和原有记录合并。主数据管理系统的提出就是为了解决以下种种问题:国内的一些大型企业的各个部门 中都有各自的计算机应用软件和数据库系统,这些软件有

18、自行开发的,也有从其它公司引进 的。虽然它们在生产和销售中起到了一定的作用,但是由于这些应用软件和数据库系统开发 时很少使用统一的设计规范,经常会出现数据不一致的情况存在;另外,由于系统开发时数 据接口编写的不一致,针对数据库或其它种类的数据源的调用可能并不一定相同。这些种种 可能性都制约了系统间数据的相互调用。主数据是企业业务中相对静态不变的实体信息的描述,在多个业务事务实例(包括同 类业务的若干实例)中反复使用,是业务运行中所必须的关键信息及其元数据。主数据通常 包括企业的组织结构、产品、客户、雇员、材料、供应商等。例如,ERP系统中通常会有客 户、物料和账户作为主数据。主数据通常是公司的

19、关键财产。通过利用SOA自身的技术优 势来搭建主数据管理系统,是目前工业界主流的做法。图2-1 是关于面向服务的主数据系统 架构参考视图。主数据存储部署主数据管理系统的存储方案分为三大类:集中式存储、分布式带同步存储和仓储参照式 存储。1、在集中式存储方案中,将会有一个单独的数据存储,它负责所有主数据和非主数据的保 存。业务系统对主数据和非主数据的访问必须通过主数据存储获得数据。因此,这实际上相 当于一个简单的单数据源的数据系统。呂/SupplieniFig2-lohaHJatComponcru图2-2来中式敦据存储方式示例图2 An example of data distribution

20、using centralized data storagePtreonVKNameDateOfBirthTransaction HubEmployeePKJ kIDNamneDalrOniirtlSul aryTitleCorrtrjiibr卩 KJKlSuuDlrrll)Nmnr PateOmirlliSericcTypeSuppliers DauPcisonNiinr DalcOB irfli分布式带同步存储方案的优点和缺点如下:优点:应用系统业务逻辑及其数据(如图中的Sales和Sales Data)可以在同一台机器 上实现,这样,在处理该系统的数据请求时,部分数据可以是 本机存取,加

21、快处理速度。缺点:数据的更新与一致性检验需要花费一定的时间。3、仓储参照式存储方案提供一个参照数据源,在该数据源上只记录元数据信息以及数据存 放位置。数据在各数据源可能存在重复存储的关系。主数据中实体的主属性以外的部分通过 外键映射到主数据中。:I ; S il ppliCIS图2-4隹咄墓照或4t据存焉示例图Fle.2 -4 An example of dula distriblilion Using rcposirv data slor;tizc mcthiHlS4ks IMuG Icbi Dsiu Can ppicniCusiomcrPK.FK11 ri h 1 hi if rl HC

22、OMsimcaCliw*Disc b(CmIcEmployeePKfiFKl貨 m n In nr 11)StaiyTifceCoutioaorPKJKlSu noli er IDSen LcTypePerkinPKNsime DatcOfB irlh仓储参照式数据存储方案的优点和缺点如下:优点:数据实例中只被一个系统使用的数据源可以与应用系统放在同一台机器上,而对 那些可能被多个系统访问的数据实例可以选择一个业务系统存放,也可以重复存储在各个数 据源上,使网络访问化为本地访问。对于主数据而言,我们可以通过仔细地选择它们的存放 位置达到负载均衡。缺点:数据的存放是异地的。有时甚至可能出现同一个

23、实体的不同属性值被存放到不同 机器上的情况,各业务系统可能会出现获取其它系统中大量数据实例的情况,这对网络的消 耗是非常大的。主数据管理相关技术一、源数据剖析:源数据剖析通常作为主数据管理实施过程的第一个阶段。首先了解源 系统中的数据十分关键,这有助于了解源数据的质量,以及源数据中的使用模式和规则。源 数据剖析工具的目的就是要自动化这一流程,同时详细洞察源系统中的数据,避免传统 数 据 分 析 的 手 工 操 作 。 目 前 已 经 出 现 了 较 为 成 熟 的 产 品 , 如 IBM Profile Stage。数据剖析过程用于评估数据质量,由多种分析组成,它们调查和研究数据的结构和内容

24、并对数据作出推断。在分析完成后,用户可以检查结果,并接受或拒绝推断结果。下图展示 了数据剖析的几个分析过程的关系。其中虚线表明列分析不必在跨域分析前做。1、列分析:用于理解数据的结构和内容,找出可能影响数据质量的异常,列分析是所有其 他分析的先决条件,列分析过程中,在一个表或文件中的列或字段数据将被评估,并且建立 频率分布。该频率分布概括了每列相关数据特征的统计和推断的结果。用户可以检查频率分 布以找出数据中的异常,并随后使用数据清洗工具清除异常。频率分布的结果通常也作为后 续分析,如主键分析和基线分析的输入数据的一部分。列分析一般主要包括四种分析: 域分析:识别无效和不完备的数据值; 数据分

25、类分析:为数据中每列推断出一个数据类,用于分类数据; 格式分析:为数据值建立一个格式表达式,用于确保与定义的标准一致; 数据属性分析:分析数据中定义的属性的准确性。2、主键分析:主键是用于在表中识别一行而使用的一列或多列。一个主键必须是唯一且不 能包含 null 值,例如:包含客户号的列。主键分析是识别表中所有候选关键字的过程,其 目的是检测出一列或多列,它们可能适合作为相应表的主键。3、外键分析:基于上述列分析的结果,可以通过设定系统定义阈值等方式挑选主键,因为 要成为主键的一个候选,列必须包含唯一值的百分比应当比系统定义阈值还要高,例如一个 系统定义阈值为 95%,则某列包含 95%或更多

26、的唯一值时,可被推断作为主键的候选,而 剩余的 5%是重复值,重复值的出现可能由于数据与其他数据源整合或数据格式改变等,所 以如果确定这样的列为主键,需要清除这些重复值。用户也可以通过比对某个几个列组成的 数据样例或整体源数据来参与挑选多列主键。4、跨域(cross-domain)分析:跨域分析决定了是否多个列共享一个公用域,是比对选定的表 集合中每个表所有列与其他表所有列的过程。其目的是检测出共享某个公用域的那些列,一 个公用域的存在表明多列包含重迭数据。共享一个公用域的列可能指示一个外键和一 个主键之间的关系,然而,大多数这样的公用域表示列之间的冗余。如果存在冗余,可能需 要清除。例如,当

27、数据被系统处理流程移入不同表时,数据很可能产生冗余。例如,银行A 希望将自己的客户数据与银行B的客户数据进行整合,则两个银行都可能包含冗余的客户数 据。跨域分析过程通常是选定两列或多列进行相容性分析和跨域公用性分析。5、基线分析:基线分析是对相同数据源比对以前的分析结果与现在的分析结果。如果前后 有差异,应评估变化的意义,如是否质量被提高了。为了比较数据,首先选定一分析结果作 为基线版本,再用基线版本去比较同一数据源的所有后续分析结果。二、数据标准化:标准化是主数据管理的一部分,通常:在主数据管理实施中处在源数据分 析之后,匹配与记录联合之前。由于企业在实施信息系统集成时要兼顾遗留系统和集成系

28、统 两个方面的需求,既要考虑到系统集成的需要也要考虑到遗留系统对集成系统的制约,同时 由于设计和实施集成系统费用和资源上的限制,标准化其中的数据对集成系统的质量影响十 分巨大。数据标准化是为了建立核心商业实体的描述规则。由于核心商业实体往往在企业中 多个数据源中同时使用,而且很可能描述不同,因此有时需要在主数据管理系统中创建参照 数据来标准化源数据。标准化就是这样的一个过程,它能够固定信息或属性的描述方式。标 准化是“固定组织”信息或属性以及向每个固定组织的信息分配以商业为导向的语义标签的 流程,通常可以通过创建规则的方法来标准化与核心商业实体有关的信息。主数据的标准化 必须灵活适应在一个通用

29、平台上对各种姓名、商业名称、国际区域/语言、产品、部件和材 料数据的处理。数据标准化的目的是为了更好地进行匹配,以确定哪个记录以及记录的哪些属性反映了 正确的信息而需要保留,哪些属性需要丢弃,同时标识潜在的重复记录并加以剔除。三、主数据匹配数据匹配的目的是确保没有两个或多个对象记录代表同一个对象实体,减少记录的重复 存储。数据匹配用在主数据管理的环境中,主要作用是通过对系统中的新进入的记录数据和 已有记录数据的匹配,判断新进入的记录是否已经存在于系统中。通常这项工作在信息管理 系统中都采用简单地匹配每条属性值的方法来进行,但是由于主数据管理系统中进入的数据 可能仅仅是在某些表达方式等细微的差别

30、上和系统记录不同,因此必须采用更复杂一些的匹 配方式。实现数据匹配的主要方法包括确定性匹配算法、概率性匹配算法、机器学习算法等。1. 确定性匹配算法 这类算法把第一条记录的每个属性和第二条记录的对应属性进行比较,这种比较是字节 级别的。比如比较第一条记录的身份证号和第二条记录的身份证号,比较的结果只有两种可 能,匹配或不匹配。做确定性匹配之前,需要对输入数据进行清理和标准化的工作,以提高 匹配的效率。对于某些属性可能会出现空白,拼写错误或丢失字符的情况,改进的确定性匹 配算法可以使用模糊逻辑技术。2. 概率性匹配算法 通过分析各属性值的匹配,采用权重分配计算匹配相似度,设定匹配阈值。四、主数据

31、同步 数据同步的主要目的是在数据对象存在副本或者数据项之间存在依赖关系的时候,保持数据之间的一致性。主数据管理系统中需要进行数据同步的情况包括两种,数据存在副本的 情况和属性值之间按照业务规则的定义存在依赖关系的情况。目前数据同步的方法主要包括 实时更新和非实时更新两种,实时更新是指在数据产生变化的时候主动通知其他数据库中的 副本做相应的修改,例如采用两阶段提交协议来同步相应的副本更新,而非实时更新则是通 过系统在各网络节点上复制数据来保证数据同步。1. 多副本情况下的数据同步:在多个副本中,定义一个副本作为主副本,在对象更新时首先 要更新主副本。事务中对多个副本中任何更改都映射对主副本的更改

32、。一旦主副本发生更改, 就把更新传播到其它副本。存储副本的优点是增加可用性和并行性,但缺点就是增加了同步 的开销。系统必须保证数据的所有副本是一致的,否则就可能产生计算错误。在多个副本中, 应该选择一个作为主副本,在对象更新时首先要更新主副本。事务中对多个副本中任何更改 都映射到对主副本的更改。一旦主副本发生更改,就把更新传播到其它副本。为了保证运行 在副本站点上的事务看到一致的数据库视图,副本应该反映站点上的数据的事务一致性快 照。也就是说,副本应该反映按串行化顺序排列的先于某个事务的事务所做的更新,而不应 该反映按串行化顺序排在该事务之后的事务所做的更新。2. 属性值之间存在依赖关系的情况

33、下数据的同步:两个或多个属性之间按照业务规则的定义 可能存在依赖关系。如果这些属性数据是在物理设计阶段存放在一个数据库系统中,那么可 以利用数据库系统所提供参照完整性约束校验来保持属性数据之间的同步关系。也可以定义 触发器、断言或者存储过程来实现。在两个属性分布存储在不同数据库系统的情况下,此时 就必须在元数据管理系统中记录两个属性之间的位置以及函数映射关系,以便更新的时候快 速定位,同步更新。五、主数据转换:数据转换是指从多个数据来源中提取、转换和合并到单个或多个目标的过 程。由于数据源所依赖的应用系统、数据库管理系统、操作系统之间的不同,以及在存储模 式上的不同造成了数据源在系统上的异构和

34、模式上的异构。数据的存储模式包括关系模式、 对象模式、对象关系模式和文档嵌套模式等几种,其中关系模式为主流存储模式。但即使是 同一种存储模式,它们在体系结构、数据类型和操作方法上等都存在着差异。例如,Oracle 采用的数字型为Number,而SQL Server采用的数字型有int、float和double型。 目前异构数据源间数据转换的主要方法有: 基于软件工具的转换方法。数据库管理系统一般都提供将外部文件数据转移到本身数据库表 中的数据装入工具,如 Oracle 提供的将外部文本文件中的数据转移到 Oracle 数据库表的 数据装入工具SQL Loader,利用这些软件工具可简单、快速地

35、实现数据转换。但这种数据 转换程序是特定的、专用的,要求目的数据库必须是转换工具对应的数据库,且多用手工方 式进行转换,数据更新时会带来不同步的问题,即使人工定时运行转换程序也只能达到短期 同步,对应转换的数据库类型也不多。基于中间数据库的转换方法。在两个具体的数据库之间转换时,依据关系定义,从源数据库 中读出数据通过中间数据库写入目的数据库中。这种方法,所需转换模块少,且扩展性较强, 但实现过程复杂,转换时需要大量的空间。基于数据库组件的转换方法。利用 Delphi 等数据库应用程序开发技术,通过源数据库与目 的数据库组件来存取数据信息,实现直接转换。但如果源数据库与目的数据库对应的数据类

36、型不相同,必须先进行类型的转化,然后双方才能实施赋值。在具体实现技术上,经常采用 XML 技术进行数据转换。XML(Extensible Markup Language)是由 W3C组织于1998年2月制定的一种通用语 言规范,是 SGML 的简化子集,专门为 Web 应用程序而设计。 XML 作为一种可扩展性标 记语言,其自描述性使其非常适用于不同应用间的数据交换,而且这种交换是不以预先规定 一组数据结构定义为前提。 XML 最大的优点是它对数据描述和数据传送能力,因此具备很 强的开放性。为了使基于 XML 的业务数据交换成为可能,就必须实现数据库的 XML 数据 存取,并且将 XML 数据

37、同应用程序集成。为了完成异构数据库间的通讯,必须实现 RDBMS 到 XML 再到 RDBMS 的转换。一个 具体的 XML 模式到关系模式的数据转换需要涉及较为复杂的 XML 格式分析处理及相应 的数据库操作及有效性校验。我们通过对 XML 的数据模型与关系模型的特征的比较,可以 看出两者转换的实质是:从XML中的数据(存在方式可以是Content、属性值、元素名等) 到关系模式中字段的映射; 从 XML 中数据的相互位置关系到关系模式中元组与元组的关 系及元组与字段的关系的映射。 XML 模式与关系模式的转换的核心与实质就是按 XML 编 写的转换规则和转换规则的执行解释方法。六、数据对象

38、的版本管理:在针对数据对象的版本管理当中,我们使用版本管理来记录数据 在历史时刻的数据值。版本管理是记录数据对象修改的过程,它可以向用户提供数据对象的 历史信息。一个完善的版本管理系统应完成对数据对象的修改、删除、添加、分支和合并管 理的操作,以及回溯到历史版本的功能。目前常用的方法是线性版本管理和支持分支和合并 的版本管理 线性版本管理支持分支和合并的版本管理七、支持分支和合并的版本管理:长期以来,人们对元数据的定义就是:元数据是关于数据 的数据。然而,在不同的环境下,元数据的含义往往不同。有些人将元数据像数据一样使用, 构造机器可以理解的结构化元数据;而有些人只将元数据作为描述电子资源的记

39、录。例如, 在图书馆中,元数据就被规范化和结构化,用以描述图书馆中的电子资源。使用结构化元数 据的目的是为了以一种统一的和稳定的方式来描述存储在不同介质上的信息,以改进对信息 的管理和检索。对于结构化的元数据来说,元数据也应有相应的格式,其格式由元数据模式(metadata schema)定义。元数据模式通常会定义元数据中会出现的一些元素,包括元素 的名称和含义。目前已经有了许多成熟的元数据模式,包括 Dublin Core、EAD 等。数据集成过程中的元数据按其用途的不同被分为三类:技术元数据、业务元数据和管理 元数据。技术元数据是负责数据集成的设计和管理人员用于开发和日常管理集成系统时用的

40、 数据,包括数据源信息、数据转换的描述、对象和数据结构的定义、数据清理和数据更新时 用的规则、源数据到目的数据的映射、用户访问权限、数据备份历史记录、数据导入历史记 录、信息发布历史记录等;业务元数据从商业业务的角度描述了被集成系统中的数据,包括 业务主题的描述和包含的数据、查询、报表等。在数据集成系统中,元数据用于描述被集成的数据系统内数据的结构和建立方法。为了 统一元数据的管理,元数据经常被集中到元数据存储中,所有被集成的数据系统中的信息, 包括数据的结构、内容、数据间的依赖关系都被放到元数据中。这样,在数据集成的过程中 可以做到元数据的统一开发,并可以有效地支持业务用户的业务,例如数据的

41、浏览和查询。八、异构元模型的数据模式映射:主数据管理的过程中需要进行不同的源的数据的映射,这 些数据可能采用不同的数据模式,甚至可能采用不同的元模型来表达这些数据,如关系数据 库元模型、本体元模型等。这就要求我们研究异构元模型的数据映射方法。异构元模型的数据模式映射与普通的模式匹配问题不同。普通的模式匹配问题,如数据 库模式映射、本体映射等,都是基于同一种元模型的基础上的,如:An Hai Doan等通过在 本体中使用参与映射的两个本体中的实例来分别训练分类器并对另一本体中的实例进行分 类,并根据两个概念的实例之间交集的个数来获得语义相似度;Jie Tang等使用包括基于名 称、实例、描述、分

42、类关系、约束和自然语言理解的方法,并将这些方法组合,用来计算相 似度并生成映射;以及关系数据库模式匹配中的GLAV (global-and-local-as-view)等。但是, 在主数据管理的环境下,可能会出现不同元模型之间的数据需要进行映射的情况,由于不同 元模型表达能力上的差异,如本体与关系数据库模式之间的相互映射,关系数据库模式主要 用于数据查询,而本体则承担着知识表示和推理的功能,这导致了关系数据库模式语义较少、 结构较简单而本体则语义表达能力强而结构复杂,这些都增加了不同元模型数据模式之间映 射的难度。对于同构元模型的数据模式之间的映射问题,目前的解决办法可使用多种方法进行分 类:

43、首先可根据映射过程中主要的关注元素将该问题的解决办法分为元素层次上的匹配和结 构层次上的匹配,前者是孤立地考虑参与映射的元素之间的匹配,而后者则是综合考虑在模 式中出现的所有元素,将同一数据模型下元素之间的相互关系也作为映射的一个考虑因素; 其次,可以将它们按照基于语法、语义以及外部工具的映射算法,其中,基于语法的映射是 指算法能够清晰的描述,并只通过参与映射的元素本身的结构信息来生成映射关系的方法, 基于语义的方法是指通过某些正则文法来解释输入信息并生成映射关系的方法,而基于外部 工具的方法则可依赖人的手工输入或者其它外部资源来获得映射关系。目前对于异构元模型的数据模式之间的映射问题 主要集

44、中在将异构的数据模式转换到 同一种中间模型上 虽然也有少量的研究采用了将一种元模型转换到另一种元模型进行表达 的工作,例如,将关系数据库转换到本体的形式,但由于不同数据模型之间的不兼容性和表 达能力之间的差距,因此这些工作仅限于将在不同元模型上进行表示的层面,不能用于它们 之间的模式匹配。基于主数据的集成系统设计研究:主数据管理系统是为了集成多个数据源中的异构数据 而建立的数据管理系统。因此,主数据管理系统必须能够对多个数据源中的数据进行互访, 而首先主数据管理系统必须能够识别各个数据源中的数据,必须能够建立不同数据源中数据 的映射关系。新数据实例系统3系统1伍3-1至教蝇晋理系純性幣Fig.

45、3- L M aster Dula Munafcmcnt svslcni framework新数据鹹入拒同-P战据同步黴撫M配数按匹配/数拥匹Mx一业I別据佯;y毎统MDM心数抵 耳映射关系* 数据转按放据5仓储参照方式的主数据管理系统的主要特点是,它的参照数据源该数据源上只记录元数 据信息以及数据存放位置。数据在各数据源可能存在重复存储的关系,但在主数据管理系统 中并不存储主数据实例。主数据中实体的主属性以外的部分通过外键映射到主数据中。在主数据管理系统的建立过程中,首先应由现有系统中的数据提取出主数据,包括主数 据的元数据和主数据实例,并在此基础上形成主数据存储。在主数据存储建立之后,需要

46、实 现数据同步、匹配和转换的功能,以完成:主数据存储中的主数据实例到各应用系统中的数 据实例的同步和转换; 新数据实例(或修改的数据实例)与主数据存储中数据实例的匹配; 各应用系统之间的数据实例的转换、同步和匹配。主数据管理系统的主要模块:元数据存储,数据同步,数据匹配,数据转换。 数据的处理流程:新数据录入的处理流程1. 客户从参与集成的某业务系统(假设为业务系统i)中向主数据管理系统发出新增数据 的请求;2. 主数据管理系统检查该数据记录对应的类(或关系数据库中的表)是否在主数据存储中,如果在,转到 3,否则转到 8;3. 业务系统调用主数据管理系统的服务,在主数据管理系统中生成一个数据实例;4. 主数据管理系统执行数据记录的匹配过程,检查是否已经有了与新录入的数据实例一致 的数据实例存在,如果是,则给出相应的数据实例并结束,否则转下一步;5. 对数据记录中的每条属性,主数据管理系统从其元数据中查找相应的属性,并检查该属 性是否在主数据属性当中;6. 对每条主数据属性中的属性,从元数据映射表中查找与该数据记录的属性对应的映射关 系,找出它对应的类(表)名、属性名以及数据源地址,根据这些信息相应地新建一条数据 记录;7. 结束;8. (该数据记录对应的类不在主数据存储中)将该数据记录保存到业务系统i的数据存储 中;9. 结束。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!