数据挖掘知识点

上传人:ta****u 文档编号:223775455 上传时间:2023-07-21 格式:DOCX 页数:13 大小:653.38KB
收藏 版权申诉 举报 下载
数据挖掘知识点_第1页
第1页 / 共13页
数据挖掘知识点_第2页
第2页 / 共13页
数据挖掘知识点_第3页
第3页 / 共13页
资源描述:

《数据挖掘知识点》由会员分享,可在线阅读,更多相关《数据挖掘知识点(13页珍藏版)》请在装配图网上搜索。

1、简答题1. (第一章) 数据库与数据仓库的不同:数据库用于事物处理,数据仓库用于决 策分析;数据库保持事物处理的当前状态,数据仓库既保存过去的数据也保 存当前的数据;数据仓库的数据是大量数据库的集成;对数据库的操作比较 明确,操作数量少。2. (第三章)广义 OLAP 功能如何提高多维数据分析能力:绝对模型(静态数据 分析,通过比较历史数据值或行为来描述过去发生的事实)该模型查询比较 简单,综合路径是预先定义好的,用户交互少;解释模型(属于静态数据分 析,分析人员利用系统已有的多层次的综合路径层层细化(进行向下钻取操 作),找出事实发生的原因);思考模型(属于动态数据分析,旨在说明在一 维或多

2、维上引入一组具体变量或参数后将会发生什么。)分析人员在引入确定 的变量或公式关系时,须创建大量的综合路径;公式模型(它的动态分析能 力更强,该模型表示在多个维上,需要引入那些变量或参数,以及引入后所 产生的后果。)3. (第四章)概念模型的特点:能真实反映现实世界,能满足用户对数据的分 析,达到决策支持的要求,它是现实世界的一个真实模型;易于理解,有利 于和用户交换意见,在用户的参与下,能有效地完成数据仓库的成功设计; 易于更改,当用户要求发生变化时,容易对概念模型进行修改和扩充;易于 向数据仓库的数据模型转换。4. (第五章)数据仓库增长的原因:数据仓库收集历史数据; 数据仓库包含满足未知需

3、求的数据收集;数据仓 库不仅有详细数据,还有占数据存储比例很大的汇总数据;数据仓库包括外 部数据,用来支持多种可预测的数据挖掘任务其他题型:(第一章)数据仓库的定义与特点(选择或判断) 数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营 管理中决策制定过程。特点:是面向主题的,集成的,稳定的,是随时间变化的,数据仓库的数据量很 大,数据仓库软硬件要求较高(需要一个巨大的硬件平台,需要一个并行的数据 库系统)。(一章)OLAP与OLTP的区别:OLAP专门用于支持复杂的分析操作,侧重对分 析员和高层管理人员的决策支持,(基本思想是从决策者的多方面多角 度以多维的形式还观察企业

4、的状态和了解企业的变化)OLTP (是事务处理从单机到网络环境的发展新阶段。主要应用于银行, 航空,邮件订单,超级市场和制造业的输入数据和取回交易数据。)在 于事务处理量大,应用要求多个并行处理,事务处理内容比较简单且 重复率高。第二章)数据仓库结构的了解(图):数据仓库是在原有关系型数据库基础上发展形成的但由于不同于数据库系统的 组织形式,它从原有的大量业务数据中获得的数据,经过转换后形成当前基本数 据层,它经综合后形成轻度综合数据层,轻度综合数据在经过综合形成高度综合 数据层,数据仓库结构包括前基本数据,历史基本数据,轻度综合数据,高度综 合数据和元数据 当前基本数据是最近时期的业务数据,

5、是数据仓库用户最感兴趣的部分,数据量 大。当前基本数据随着时间的推移,由数据仓库的时间控制机制转为历史基本数 据,一般被转存于介质中,如磁盘。轻度综合数据是从当前基本数据中提取出来 的,设计这层数据结构时会遇到综合处理数据的时间段选取,综合数据包含哪些 数据属性和内容等问题。最高一层是综合数据层,该层数据十分精炼,是一种准 决策数据。粒度(选择或判断):(粒子度与综合)指数据仓库的数据单元中保存数据的细化 活综合程度的级别,细化程度越详细,粒度级就越低。粒度大综合级别高,粒度 小详细级别高。在低粒度级上,纪录详细。高粒度级只需要少得多的字节存放数 据,且只需要较少的索引项。数据存储效率高。当提

6、高数据力度时,数据所能回 答查询的能力降低。且小粒度的数据可以回答任何问题,但高粒度数据回答的问 题具有宏观性。辭储数瞬逹輕主v例如疾低粒度级详细數擔,匕驾次甩哺綁呼 缰记參赫二记录住共需更10 000 &字节在高包度级血 合養:;:需:二:酬琵:盅0少昭引短awffls 讐;議秒恣:器常麟黑陰蠶常 或在豐鑒is霊誘;询的館力舲泌降低而和、迹的鴛譽测 罡“F券台数据八数驚所帆工十“绘心町间以时答的何昭具菊宏观性-粒度-数据综合程度高低的一个度量粒度越小,越细节,综含程度越低,回答杳询种类 越蚩,数据量大.性能低琮舎證盍債同备圭询聃案乡爍烘佩粽鱼趙度青国鲁瘗询时羹夕= , 不皑回壬倉狂三搭曲 A

7、上母询占脈 友打虬请J7_陷? _ft餾厂工月人的以车盘能凹綾柱施低1 拥打出的畏進蚁话平均出就?”嫌禺it年月1个记隶,200张申节4 A 200金杞录.40000丰字芾当提高数据粒度级时,数据所能回答查询的能力就会随之降低。换句话说,在一个 很低的粒度级上,实际可以回答任何问题,但在高粒度级上,数据所能处理的问题 的数量是有限的。元数据(选择判断,综合分析):在数据仓库建设过程中产生的有关数据源定义、 目标定义、转换规则等关键数据,是定义数据仓库对象的数据。包含的信息有: 数据仓库的目录信息、数据从业务环境向数据仓库环境转换时的目录内容、指导 从当前基本数据到轻度综合数据的算法选择、轻度综

8、合数据到高度综合数据的综合算法的选择。(第三章)OLAP基本概念:变量:变量是数据的实际意义,即描述数据“是什么”。例如:销售量、销售 额,而具体数据(如“10000”)是变量的一个值 维:维是人们观察数据的特定角度。如产品维、顾客维、时间维,地理位维等。 维的层次:数据的细节不同程度为维的层次。特定角度的不同细节程度,通常称 这描述的多个方面叫维的层次,一个微往往具有很多个层次,例如,描述时间维 时,日期,季度,年,就是时间维的层次。城市,地区国家就地理维的层次。 维成员:维的一个取值(称为该维的一个成员)或不同维层次的取值的集合(对 多层次情况) 例如:时间维:三个层次,日、月、年维成员:

9、 1999 年 5 月 20 日 可以在某些层次上不取值,如 1999 年 5 月; 5 月 20 日; 1999 年 维成员是数据在该维上的位置描述 例如:1999年5月20日销售额表示销售额数据在时间维上的位置(相当于时间轴 上的某一点或某一区间)多维数组:一个多维数组可以表示为:(维1,维2, ,维n,变量)一个4维的结构,即(产品,地区,时间,销售渠道,销售额)。数据单元(单元格):多维数组的取值。如:4维数据单元(牙膏,上海, 1998年12月,批发,销售额为100000) 多维数据分析的基本操作(判断选择)OLAP的目的是为决策管理人员通过一种灵活的多维数据分析手段,提供辅助决策

10、信息。基本的多维数据分析操作包括切片、切块、旋转、钻取等。口口城市95%州例如,以产 品.城市、时间乃 三维数据,如图电视忻迫曲i(1)切片(slice) 选定多维数组的一个二维子集的操作叫切片,即选定多维数组(维1,维2, 维n,变量)中的两个维,设为维i和维j,在这两个维上取某一区间或任意维成 员,而将其余的维都取定一个维成员,得到的就是多维数据在维i和维j上的一个 二维子集,称为多维数据在维i和维j上的一个切片,表示为(维i,维j,变量)。 切片就是在某两个维上取一定区间的维成员或全部成员,而在其余的维上选定一 个维成员的操作。分析动作之切片逸玄希小申$产再维勵掛亘睢“tW71J4卢高4

11、*嚼椿况u: 5#x. 井鑫时闻箪Jliljt覃丸JI -19971M*再列时网馆上詢f池d、 -19Q7n4* 八塁* 4J(2)切块切块有两种情况:在多维数组的某一个维上选定某一区间的维成员的操作。切块可以看成是在切片的基础上,确定某一个维成员的区间得到的片段,也即由 多个切片叠合起来。 选定多维数组的一个三维子集的操作。在多维数组(维1,维2, ,维n,变量)中,选定3个维,维i、维j、维k, 在这3个维上分别取一个区间或任意维成员,而其它维都取定一个维成员。(下面2图了解)切块-在给定数据-立方体的两个或多个維上执行选择 *定义子方的操作称为切块操作。例:涉及三亍维的切块.条件为:(地

12、点才南京” 6T 北京 M)AND时间=(1Qr,0RQ2H)AND(类型 刖家庭娱乐1PIT计算机J( 3)钻取( drill) 钻取有向下钻取( drill down )和向上钻取( drill up )操作。 向下钻取是使用户在多层数据中能通过导航信息而获得更多的细节性数据。向上 钻取获取概括性的数据。(下面图了解) I:卷通过一个维的概念分层向上攀升或者通过维 归釣在数据立方体上进行聚集,称为上卷 操作。朋:在地区维层次向上攀升,在中心数据立 方体执行上卷操作.(这个分层被走义为全 序:县式城市式州或省国家城込W】东習/计护L |忑下钻下钻是上卷的逆操作,它由不太详细的数据 到更详细的

13、数据下钻可以通过沿维的概念 分层向下或引入新的维来实现口例;沿着天耐月弋季弋年定义的时间维的概念 分层向下.在中心数据立方体执行下钻操作 的结果。(4)旋转(pivot)通过旋转可以得到不同视角的数据。旋转操作相当于平面数据将坐标轴旋转。例 如,旋转可能包含了交换行和列,或是把某一个行维移到列维中去;或是把页面 显示中的一个维和页面外的维进行交换(令其成为新的行或列中的一个)改变一 个页面显示的维方向的操作称为旋转(或转轴)。索引聚集索引叶华点足教据本身在竇引上码壘嘻一的.御果探臬索引不足唯一的索引,系统将谀加也内部生成的值以使卓塑的键唯txti非聚集索引位图索引叶结点包含索引玛的杯慎标诉可以

14、址 RID (File #, Page #. Slot 約哝的聚ArM1I_-w1针对一些特殊的列建立索引列中的每一个值对应一个向盘中的一位向敏的长度对应与记录的条数不适合列中值的个数太参的情况Imlc x on Typelnto on RvginnMs tahlt査询: Select oust From BaseTableWhere Region=4Asia* and Type=Dealed BltMap for Region(Asia): 10100 BitMap for Type(Dealer): 01101査询结:Sh向童与操作:00100位片索引(Bit sliced Index)位

15、片索引是将属性列的域值按照某种方式进行垂亢分割,然两以一进制位图的形式存储Sales in binary foiwSaie&in b)mQ* (onnKbit 4bir 2bit lb)r投影索引(Project Index)按吵为单位存储数据52NYA61.1MAA0nAXYB5V541CTA11LITNYA011MRTni47CTD710XTAnMW M3I CUh JMl 员urn vnr#兀里平乘懑書症溺紅-號刼、二吗可三號歓理鉅窮-感则休O驢羽折为7=二-说:=上:= 0 屮悯曦据蒯仓库中数樹比脈対碾蜡瓦牡妊示丸r=d!l 随着时间的推移,数据倾向于两种状态之一,频繁被使用的活动数据

16、(每个月23次)和很少被使用的休眠数据(每年不到0.5次)(第六章)知识发现(KDD)是从数据中发现有用知识的整个过程。它是从大量数据中提取出可信的、新颖的、有用的并能被人理解的模式的高级处理过程。 KDD过程可以分为三部分:数据准备,数据挖掘,结果的解释和评价。知识发现过程:模式评汾敌据挖掘转换预处理知识选择预处理 数据敖据转换模式/ KDD门代图如图”;.心厂数据数据能备亠一数据挖掘一一亠一结果评价”数据挖掘的对象有:关系数据库、文本、图像与视频数据、Web数据等。(第九章)神经元的几何意义:神经元起了一个分类作用 遗传算法:是一种基于遗传学的搜索优化算法。曲线拟合问题:特点在于被确定的曲线原则上并不特别要求真正通过给定的点, 只要求它尽可能从给定的点附近经过。FDD系统有三个版本:FDD.1,FDD.2,FDD.3FDD.1系统能够发现变量取初等函数或复合函数的组合公式o FDD.2能发现变量取 导数的公式,FDD.3可以发现多变量取初等函数或复合函数的组合公式。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!