数据挖掘之数据分析专业名词阐释

上传人:lis****210 文档编号:110812006 上传时间:2022-06-19 格式:DOCX 页数:7 大小:17.18KB
收藏 版权申诉 举报 下载
数据挖掘之数据分析专业名词阐释_第1页
第1页 / 共7页
数据挖掘之数据分析专业名词阐释_第2页
第2页 / 共7页
数据挖掘之数据分析专业名词阐释_第3页
第3页 / 共7页
资源描述:

《数据挖掘之数据分析专业名词阐释》由会员分享,可在线阅读,更多相关《数据挖掘之数据分析专业名词阐释(7页珍藏版)》请在装配图网上搜索。

1、数据挖掘之数据分析专业名词阐释周建(郑州幼儿师范学校,河南郑州450000)1.1 1、引言、摘要:数据挖掘是随着计算机的普及,企业和个人的数据量不断增加以数据库技术为基础和支撑,开发环境为工具,从大量数据中揭示出隐含的、先前未知的、并有潜在价值的信息的过程。数据挖掘包含:数据整合、数据分析和报表服务。数据挖掘是一门新兴的技术和学科,有大量新的专业名词产生即使已有的专业名词但也有了新的延伸和阐释。大部分书籍是英文翻译过来的,要根据上下文的意思来确定这些专业名词之间的关系。一些专业名词在开发环境中和书籍中的包含关系是对调的,容易使我们在理解上产生混淆,给我们的学习带来了一定的困难。下面我将对数据

2、分析中的一些专业名词,从开发环境和专业书籍两个方面做出阐释,希望能够对学习数据分析的人们提供一些帮助。1.2 、开发环境开发环境为:SQLServer2005或SQLServer2008。在数据分析中出现了大量的专业名词,它们在开发环境中按照包含与被包含的关系排列依次可以得到:数据仓库、数据源视图、多维数据集、度量值组、维度表、事实表、维度、度量值、层次结构、属性、键列值、细粒度、聚合。其中事实表和维度表,键列值和属性是并列关系,聚合是数据分析的一种操作方式。开发环境是一个树型结构,层次结构比较清晰,为了使学习者能对数据分析有一个系统的认识,我按照开发环境对这些专业名词做出排序。下面我就按照这

3、个顺序对这些名词进行阐释。2.1 关键词:数据挖掘数据分析多维数据集度量值维度属性细粒度2、专业名词阐释、数据仓库通过对已有数据的加工而形成的数据库(对已有的数据通过整合操作,形成统一的格式),通常作为数据分析的数据源。我们做凳子需要木头作为基本原料,数据仓库就是数据分析所需的基本原料。2.2 、数据源视图数据仓库中包含大量的数据(通常用“海量”来形容数据仓库中所包含的数据量),数据分析是从不同的方面对数据进行观测,并不是每一个方面都需要数据仓库量中的所有数据。数据源视图就是为了实现数据分析的灵活性,保证数据仓库中数据的安全性,节省数据分析的时间和所消耗的计算机资源,而被设计出来的。数据源视图

4、只是数据仓库的快照,本身不保存有数据和事务性数据库中的视图的性质相似,对数据源视图的所有操作,不改变数据仓库中的任何数据,就像照像时的照片和底片的关系一样。2.2.1 、多维数据集、概念一个或多个度量值组以及它们相关的维度的集合。2.2.2 、阐释多维数据集是把数据源视图中的表进一步抽取、组合而形成的。一个数据源视图能够组合成多个多维数据集,一个多维数据集也可能由多个不同的数据源视图中的表抽取、组合而形成。多维数据集在数据源视图的基础上进一步提高了数据分析的灵活性,节省了数据分析的时间和所消耗的计算机资源。多维数据集是数据分析的中心和主体,数据分析所有环节都是围绕多维数据集进行的。它就像在开发

5、程序时最终生成的那个EXE文件或者整个应用程序的解决方案。我们要做凳子时要得到凳子这个成品,唯一的区别在于我们每做一个凳子都要做腿、做面然后再组装,而多维数据集更像一个全自动的生产线,只要把设备调试好只要能生产出第一个凳子,其它的只需要按一下按钮就完成了所有的工作。一个多维数据集构建完成之后,当有新的数据进入数据仓库时,通过对开发环境的设置,能够在固定的时间(自动方式)或者重新部署一次(人工方式)对这个多维数据集的设定过的操作进行处理,我们再不用进行像聚合、求平均值等操作,就能得到我们想要的报表,这也是SQLServer2005或SQLServer2008开发环境与Excel的最大不同(在Ex

6、cel中新的数据进入时必须重新进行聚合、求平均值等操作才能得到我们想要的报表)。在开发环境中,开发阶段需要频繁处理多维数据集,所以多使用ROLAP存储设置加快多维数据集的处理速度;在开发完成阶段由于多维数据集要作为报表服务的基础和支撑,所以最好使用MOLA存储设置为报表服务提供更好的性能。两者的主要区别是MOLA存储设置是把所有的数据都存储在多维数据集中,而ROLA存储设置还有一些数据还存储在关系数据库中没有被复制到多维数据集中。我认为,多维数据集不仅仅只是一个或多个度量值组以及它们相关的维度的集合,而且包含了对度量值组以及它们相关的维度的所有具体操作,它是数据分析的一个成品。2.2.3 、度

7、量值组、概念单个事实表中明细数值的概念容器,附带一个或多个维度层次结构所有可能的聚合。2.2.4 、阐释实际需求中从用户实际需求和数据分析时的客观要求两方面进行考虑,把多个事实表或事实表中的数值列人为的分成组的操作。2.3 、维度表在生成数据仓库时就根据用户的需求已经把数据分为了两大类。一类用于保存描述性信息的表就是维度表。事实表中包含两部分,一部分保存与实事表相关联的主键列,一部分为描述性信息列。例如:每个产品的名称、颜色、类型、产地等。还有一些信息虽然形式上是数据类型的,但实际上这些数据是一些限定性的数据例如:人的年龄;产品的尺寸、重量、生产日期、定单日期和发货日期等也存储在维度表中。2.

8、3.1 、事实表、概念保存度量值的详值或事实的表、阐释在生成数据仓库时另一类用于保存数值性信息的表就是事实表。事实表中包含两部分,一部分保存与维度表相关联的键列值列(一个事实表中有多个键列值列),一部分为数值信息列。例如:每个产品的价格、网上的点击数量,还有聚合生成的产品的销量等。在事实表中一些信息形式上是描述类型的例如:网上对产品或服务的评价如:优、良、中、差等,这些描述性信息是可以通过COUNTS行聚合的,所以被存储在了事实表中。2.3.2 、维度、概念2.3.3 一个可以用来与其他维度进行交叉制表的独立的标题列、阐释数据分析中的维度借用或者说迁移了物理中的维度这个名词,但是与物理中的维度

9、的意义完全不同的。物理中的维度有长、宽、高等,是一个事实上存在的物体的抽象,二维代表的是面,三维代表的是体,它们有着本质的区别。数据分析中的维度由于数据库的限制,它在物理上只能是二维的(数据库中的表只有行和列组成)。维度的增减并不改变被测量的对象(度量值不改变,度量值的改变只与是否有新的数据存储进数据仓库有关),它只是增加或者减少了一个独立拆分度量值的方式,并且一个“一”维多维数据集产生的报表与一个“四”维多维数据集产生的报表数值并没有什么不同(没有新的数据存储进数据仓库中的事实表),所以“一“维多维数据集与”四“维多维数据集并没有本质上的区别。数据分析的中的维度主要区别是我们在分析数据时看问

10、题的角度或者说我们更关注从那个方面得到答案。例如:我们对产品的销售状况,是从销售的地区这个角度来看,或者从购买者的年龄阶段或者学历层次,或者是本月与上月的销售状况进行对比这些角度来看;或者我们想把上面的所有销售状况做出一个综合的分析。在SQLServer2005和SQLServer2008开发环境中的维度文件下的维度对应的是一个维度表,这个维度的名称在默认的情况下就是这个维度表的表名。在专业书籍中维度代表的对象有些复杂,可能代表维度表中的独立的列(描述性信息列),也可能代表事实表或者事实表中的独立的列,甚至是整个多维数据集,还有的时候代表维度所包含的属性(在这种情况下维度和属性是相等的,这将在

11、属性中介绍),这需要你根据书籍中上下文件的意思来判断维度所代表的对象。2.3.4 、度量值、概念用来监视业务可以汇总的数值。2.3.5 、阐释在SQLServer2005或SQLServer2008开发环境中的多维数据集中的度量值对应的是一个事实表,这个度量值的名称在默认的情况下就是这个事实表的表名。在开发环境中事实表和度量值可以认为是等同的,所以度量值也可以分为两部分,一部分为与之相关的维表的键列值,一部分为数值信息列。其中键列值在构建多维数据集时与维度表进行关联,不在度量值中显式出现,显式出现的是按维度拆分或者是聚合的直接对象-数值信息列。在专业书籍中度量值用来代表事实表中的数值信息列。2

12、.3.6 、层次结构、概念单个维度中聚合级别。2.3.7 、阐释在开发环境中,维度中的属性之间存在有包含关系,而这些属性按照包含与被包含的关系排列就形成了层次结构。层次结构的聚合并不是对层次结构本身进行聚合(层次结构是维度的一部分,在数据分析中能够聚合的只能是度量值中的数值列),而是按照包含关系对度量值进行不同层次的聚合或拆分,即按照维度中的属性的大小关系把事实表中的行分成组,按照组把数值列进行聚合以便达到生成不同层次报表的目的。例如:在地区维度(维度表)中,国家包含省,省包含市,市包含县或区等;在时间维度表中,年分为上半年和下半年,一个半年又分为两个季度,一个季度又被分成三个月等。2.3.8

13、 、属性、概念关于特定维度成员的信息。2.3.9 、阐释属性实际上就是维度表中的列,属性名称在开发环境中默认的状况下是维度表中的列的列名。在开发境中又把属性分为两大类:目标属性和源属性。在开发环境中把维度文件下的维度称为目标属性,而把维度成员(维度表中的描述性信息列)称为源属性。例如:产品维度也可以称之为产品的目标属性,而产品维度中所包含的重量、颜色、尺寸等列被称之为产品的源属性。2.3.10 、键列值、概念事实表中能被相互替换的列。2.3.11 阐释在数据分析中,由于只有使事实表与维度表相关联,才能从多个方面对事实表进行观测,所以要把维度表的主键作为实事表中的副键,存储在实事表中(一个事实表

14、中存在多个维度表的副键),而这些副键就是所谓的键列值。例如:在产品维表中的许多行保存的是产品鼠标的信息,那么鼠标就可以与销售事实表相对应的副键值行相互替换。键列值实际上不是列的替换,而是事件表中的副键值与维度表中的相对应具体名称之间的替换,实质上是行的替换。2.3.12 、细粒度、概念又被称为粒度属性,它表示实事表中对应的最低粒度明细信息的维度属性。2.3.13 、阐释细粒度实际就是与事件表相关联的维度表中的行。维度表中的每一行只要它在事实表中存在与相对应的数值行,那么它就是一个细粒度。例如:在产品维度表中存在一条产品的信息记录(维度表中的一行)所对应的在销售事实表中存在这个产品的单价、点击数

15、量、评价等记录(事实表中的一行),那么在产品维度表中存在的这条产品的信息记录就是一个细粒度。2.3.14 、聚合概念度量值的汇总值。2.13.2、阐释聚合实际上就是把事实表中的数值列的每一行的数值进行相加,最后得到一个总数的操作过程3.综述数据分析实质上是把数据仓库中事实表内的数值列的每一行数据不断分组和组合的过程,这个过程是通过对多维数据集的操作实现的。多维数据集先从维度方面对数值进行聚合或拆分(表的聚合或拆分),再进一步按照属性进行聚合或拆分(列的聚合或拆分),在进行属性拆分的时候又发现一些属性间有包含关系从而形成层次结构,又按层次结构进行聚合或拆分(行的分组的聚合或拆分),最后按细粒度拆分(行拆分),在这些不同等级的聚合和拆分中形成不同层次的报表,从中发现其中的关联,并以此为依据达到改进业务或提升效益的目的。这也是数据分析的价值所在。我希望,通过对这些专业名词的阐释,对开发环境中数据分析开发流程的梳理,在开发操作过程中专业名词所指向的实际对象,达到不被这些专业名词的表象所迷惑,以便降低学习数据分析的难度,减少学习时间,使人们对数据分析有一个系统的了解和认识。参考文献ReedJacobson,StaciaMisner,顾小波(译)SQLServer2005分析服务从入门到精通,清华大学出版社,2007.117

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!