ETL数据提取转换和加载解释

上传人:daj****de2 文档编号:133736127 上传时间:2022-08-11 格式:DOCX 页数:3 大小:11.82KB
收藏 版权申诉 举报 下载
ETL数据提取转换和加载解释_第1页
第1页 / 共3页
ETL数据提取转换和加载解释_第2页
第2页 / 共3页
ETL数据提取转换和加载解释_第3页
第3页 / 共3页
资源描述:

《ETL数据提取转换和加载解释》由会员分享,可在线阅读,更多相关《ETL数据提取转换和加载解释(3页珍藏版)》请在装配图网上搜索。

1、1 基本简介ETL, Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。2 主要特点ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间 层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据 挖掘的基础。ETL 一词较常出现在数据仓库,但其对象并不局限于数据仓库。ETL是数据仓库中的非常重要的一环。它是承前启后的必要的一步。相对于关系数据库, 数据仓库技术没有严格的数学理论基础,它更面向实际工程应用。所以从工程应用的角度来 考虑,按着物理数据模型的要求加载数据并对数据进行一些系列处理,

2、处理过程与经验直接 相关,同时这部分的工作直接关系数据仓库中数据的质量,从而影响到联机分析处理和数据 挖掘的结果的质量。数据仓库是一个独立的数据环境,需要通过抽取过程将数据从联机事务处理环境、外部 数据源和脱机的数据存储介质导入到数据仓库中;在技术上, ETL 主要涉及到关联、转换、 增量、调度和监控等几个方面;数据仓库系统中数据不要求与联机事务处理系统中数据实时 同步,所以ETL可以定时进行。但多个ETL的操作时间、顺序和成败对数据仓库中信息的有 效性至关重要。3 基本术语ETL 过程在很大程度上受企业对源数据的理解程度的影响,也就是说从业务的角度看数 据集成非常重要。一个优秀的ETL设计应

3、该具有如下功能:3.1 1、管理简单采用元数据方法,集中进行管理;接口、数据格式、传输有严格的规范;尽量不在外部 数据源安装软件;数据抽取系统流程自动化,并有自动调度功能;抽取的数据及时、准确、 完整;可以提供同各种数据系统的接口,系统适应性强;提供软件框架系统,系统功能改变 时,应用程序很少改变便可适应变化;可扩展性强。3.2 2、标准定义数据合理的业务模型设计对ETL至关重要。数据仓库是企业唯一、真实、可靠的综合数据平 台。数据仓库的设计建模一般都依照三范式、星型模型、雪花模型,无论哪种设计思想,都 应该最大化地涵盖关键业务数据,把运营环境中杂乱无序的数据结构统一成为合理的、关联 的、分析

4、型的新结构,而ETL则会依照模型的定义去提取数据源,进行转换、清洗,并最终 加载到目标数据仓库中。模型的重要之处在于对数据做标准化定义,实现统一的编码、统一的分类和组织。标准 化定义的内容包括:标准代码统一、业务术语统一。ETL依照模型进行初始加载、增量加载、 缓慢增长维、慢速变化维、事实表加载等数据集成,并根据业务需求制定相应的加载策略、 刷新策略、汇总策略、维护策略。3.3 3、拓展新型应用对业务数据本身及其运行环境的描述与定义的数据,称之为元数据(metadata)。元数 据是描述数据的数据。从某种意义上说,业务数据主要用于支持业务系统应用的数据,而元 数据则是企业信息门户、客户关系管理

5、、数据仓库、决策支持和 B2B 等新型应用所不可或 缺的内容。元数据的典型表现为对象的描述,即对数据库、表、列、列属性(类型、格式、约束等) 以及主键/外部键关联等等的描述。特别是现行应用的异构性与分布性越来越普遍的情况下, 统一的元数据就愈发重要了“。信息孤岛”曾经是很多企业对其应用现状的一种抱怨和概括, 而合理的元数据则会有效地描绘出信息的关联性。而元数据对于 ETL 的集中表现为:定义数据源的位置及数据源的属性、确定从源数据到 目标数据的对应规则、确定相关的业务逻辑、在数据实际加载前的其他必要的准备工作,等 等,它一般贯穿整个数据仓库项目,而ETL的所有过程必须最大化地参照元数据,这样才

6、能 快速实现 ETL。TPI (True Performance Initiative)理念,即所谓真实性能标准理念,是指协助用户全面理 解适合实际应用需求的电脑性能的一种理念。根据TPI将制定一种全新的、更为精确的测评 处理器运行应用程序性能的标准。这一标准称为TPI标准。其实 TPI 理念并不是什么新东西,早就有人在自觉不自觉地按照它去做了, DIY 的发烧 友们就是它的忠实实践者。他们都是在自己的TPI理念指导下来选配电脑配件来搭配电脑的, 从而使自己的PC能够符合自己的应用需求。如果你随某个DIY迷光顾电脑配套市场,你就 会看到他询问销售商:“我要买一个QuickIII能打到80帧的,

7、需把什么卡和CPU放在一 起,你这个行不行?不行?那我再看看其它的吧。”或者问:“我要做PHOTHSHOP,渲染时 要达到XX速度,你这个可以做到么?”其实所有这些都是TPI理念。其精髓就是根据 实际应用的性能要求,选择合适的配置,最终得到性价比最高的PC。评价计算机系统性能最重要的一个指标,是完成给定任务所需的时间,即真实应用性能。CPU 是计算机的核心,相当于整个系统的心脏,是决定计算机系统能否在最短的时间里有效 完成特定任务的关键部件。关于CPU的性能,人们通常认为其时钟频率越高,性能就越好, 事实往往并非如此,特别是出现高频芯片以后,仅以 CPU 的时钟频率来衡量计算机的性能 好坏就是

8、一种片面的误解。因为时钟频率本身并不能单独决定PC的真实应用性能,就如同 小孩和成人一起散步,小孩需要走更多步才能赶上成人。由于成人的步子比小孩大,每步走 的路程比小孩长,因此小孩需要更快走动也就是需要更高的频率才能赶上大人,所仅通过迈 步的频率来确定走的路程的长短是不合理的,处理器也是一样。而AMD Athlon XP处理器则 与成人一样,它每步完成的任务多,因此其不需要很高的频率就能很大的提高产品的实际性PC的真实应用性能反映的是PC的效率,它既取决于CPU的时钟频率(以MHz或GHz 计量),又取决于CPU在规定时钟周期内可以完成的工作量(以每时钟周期完成的指令数(IPC) 计量)。真实性能就等于时钟频率与单位时间周期完成工作量的组合,即应用性能=时钟频 率/MHz X 每时钟周期完成的工作量/IPC这一性能通过一些通用软件在相同状况下的运行速度反映出来。这就是广大用户真正应 该关心的 TPI。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!