12《数据仓库与数据挖掘》复习题.

上传人:痛*** 文档编号:119641016 上传时间:2022-07-15 格式:DOC 页数:30 大小:364.50KB
收藏 版权申诉 举报 下载
12《数据仓库与数据挖掘》复习题._第1页
第1页 / 共30页
12《数据仓库与数据挖掘》复习题._第2页
第2页 / 共30页
12《数据仓库与数据挖掘》复习题._第3页
第3页 / 共30页
资源描述:

《12《数据仓库与数据挖掘》复习题.》由会员分享,可在线阅读,更多相关《12《数据仓库与数据挖掘》复习题.(30页珍藏版)》请在装配图网上搜索。

1、数据仓库与数据挖掘复习大纲考试时间与地点:课程名称任课老师班级人数考试合班数考试周数周几第几节考试地点数据仓库与数据挖掘吴静12信技1-254 2 11 5 3-4 L1208考试题型:一、单项选择题(102分=20分二、判断题(102分=20分三、简答题(56分=30分四、分析计算题(310分=30分考试范围:第一讲数据挖掘概述考点:1、数据挖掘、知识发现(KDD基本概念;2、数据挖掘的过程;3、数据挖掘过技术的三个主要部分。复习参考题:一、填空题(1数据库中的知识挖掘(KDD包括以下七个步骤:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示。(2数据挖掘的性能问题主要包

2、括:算法的效率、可扩展性和并行处理。(3当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习。(4在万维网(WWW上应用的数据挖掘技术常被称为:WEB挖掘。(5孤立点是指:一些与数据的一般行为或模型不一致的孤立数据。二、单选题(1数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:BA、所涉及的算法的复杂性;B、所涉及的数据量;C、计算结果的表现形式;D、是否使用了人工智能技术(2孤立点挖掘适用于下列哪种场合?DA、目标市场分析B、购物篮分析C、模式识别D、信用卡欺诈检测(3下列几种数据挖掘功能中,( D 被广泛的应用于股票价格走势分析。A. 关联分析B.分类和预测

3、C.聚类分析D. 演变分析(4下面的数据挖掘的任务中,( B 将决定所使用的数据挖掘功能。A、选择任务相关的数据B、选择要挖掘的知识类型C、模式的兴趣度度量D、模式的可视化表示(5下列几种数据挖掘功能中,(A 被广泛的用于购物篮分析。A、关联分析B、分类和预测C、聚类分析D、演变分析(6根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是( B。A.关联分析B.分类和预测C. 演变分析D. 概念描述(7帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是( C 。A.关联分析B.分类和预测C.聚类分析D. 孤立点分析E. 演变分析(8假

4、设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是( E A.关联分析B.分类和预测C. 孤立点分析D. 演变分析E. 概念描述三、简答题1、何谓数据挖掘?它有哪些方面的功能?答:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。相关的名称有知识发现、数据分析、数据融合、决策支持等。数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。2、一个典型的数据挖掘系统应该包括哪些组成部分?答:一个典型的数据挖掘系统应该包括以下部分:(1数

5、据库、数据仓库或其他信息库;(2数据库或数据仓库服务器;(3知识库;(4数据挖掘引擎;(5模式评估模块;(6图形用户界面。3、请列举数据挖掘应用常见的数据源。(或者说,我们都在什么样的数据上进行数据挖掘答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy数据库、文本数据库和万维网(WWW等。4、在哪些情况下,我们认为所挖掘出来的模式是有趣的?答:一个模式是有趣的,如果(1 它易于被人理解;(2在某种程度上,对于新

6、的或测试数据是有效的;(3具有潜在效用;(4新颖的;(5符合用户确信的某种假设。5、根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别?答:根据挖掘的知识类型,数据挖掘系统可以分为特征分析,区分,关联分析,分类聚类,孤立点分析/演变分析,偏差分析,多种方法的集成和多层级挖掘等类型。第二讲数据的认识及预处理考点:1、什么是数据预处理,为什么要对数据进行预处理?2、数据预处理的方法有哪些?3、在数据预处理过程中度量中心趋势里中位数、众数等如何求取的?4、度量数据离散度时如何求取极差、五数概括(基于四分位数、中间四分位数极差和标准差?5、在消除数据的噪声时,采用的分箱技术中如何对数据进行等频(等

7、深划分,如何进行等宽划分?6、什么是数据变换?如何使用“最小-最大规范化规范化”方法、“z-score规范化”方法以及“小数定标规范化”这三种方法将数据按比例缩放,使之落入一个小的特定区间里。复习参考题:一、填空题(1进行数据预处理时所使用的主要方法包括:数据清理、数据集成、数据变换和数据规约。(2处理噪声数据的方法主要包括:分箱、聚类、计算机和人工检查结合、回归。(3模式集成的主要问题包括:整合不同数据源中的元数据,实体识别问题。(4数据概化是指:沿概念分层向上概化。(5数据压缩可分为:有损压缩和无损压缩两种类型。(6进行数值归约时,三种常用的有参方法是:线性回归方法,多元回归和对数线性模型

8、。(7数据离散度的最常用度量是五数概括、中间四分位数区间和标准差。二、单选题(1数据归约的目的是( C 。A、填补数据种的空缺值B、集成多个数据源的数据C、得到数据集的压缩表示D、规范化数据(2下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?A.数据清理B.数据集成C.数据变换D.数据归约(3进行数据规范化的目的是( A 。A.去掉数据中的噪声B.对数据进行汇总和聚集C.使用概念分层,用高层次概念替换低层次“原始”数据D.将属性按比例缩放,使之落入一个小的特定区间(4数据的噪声是指( D 。A、孤立点B、空缺值C、测量变量中的随即错误或偏差D、数据变换引起的错误(5那种数据变换的方法将数

9、据沿概念分层向上汇总 C 。A、平滑B、聚集C、数据概化D、规范化(6( C 通过将属性域划分为区间,从而减少给定连续值的个数。A.概念分层B.离散化C.分箱D. 直方图三、分析计算题1、假设医院检测随机选择的18个成年人年龄和身体脂肪数据,得到如下结果: (a计算年龄和脂肪百分比的均值、中位数和标准差(b绘制年龄和脂肪百分比的盒图(c根据Z-score规范化来规范化这两个属性答: 2、假定用于分析的数据包含属性age.数据元组age值(以递增序是:13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 3

10、5, 35, 35, 36, 40, 45, 46, 52, 70。(a 使用min-max规范化将age值35变换到0.0,1.0区间。(b 使用z-score规范化变换age值35,其中age的标准差为12.94岁。(c 使用小数定标规范化变换age值35。(d 对于给定的数据,你愿意使用哪种方法?陈述你的理由。答: 3、假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92, 204,215。使用如下每种方法将其划分成三个箱。(a 等频(等深划分。(b 等宽划分。(c 聚类。 答:第三讲数据仓库、数据立方体以及OLAP技术考点:1、什么是数据仓库,

11、它的特点以及功能?2、在数据仓库中提供的是联机分析处理(OLAP工具,它与OLTP有什么区别?3、传统的数据库系统与数据仓库的区别?4、什么是粒度?它对数据仓库有什么影响?按粒度组织数据的方式有哪些?5、什么是数据立方体?什么是维?6、OLAP的基本操作有哪些?复习参考题:一、填空题(1数据仓库的多维数据模型可以有三种不同的形式,分别是:星形模式、雪花模式和事实星座模式。(2给定基本方体,方体的物化有三种选择:不物化、部分物化和全物化。(3著名的数据仓库系统设计师W. H. Inmon认为,数据仓库与其他数据存储系统的区别的四个特征是:面向主题、数据集成、随时间而变化和数据不易丢失。(4在数据

12、访问模式上,数据仓库以事务操作为主,而日常应用数据库则以只读查询为主。(5数据立方体度量可以根据其所使用的聚集函数分为三类,分别是:分布的、代数的和整体的。(6关于数据仓库的设计,四种不同的视图必须考虑,分别是:自顶向下视图、数据源视图、数据仓库视图、商务查询视图。(7OLAP服务器的类型主要包括:关系OLAP服务器(ROLAP、多维OLAP服务器(MOLAP和混合OLAP服务器(HOLAP。(8求和函数sum( 是一个分布的的函数。(9方体计算的主要挑战是海量数据和有限的内存和时间之间的矛盾。二、单选题(1下面的数据操作中,哪些操作不是多维数据模型上的OLAP操作(B。A、上卷(roll-u

13、pB、选择(selectC、切片(sliceD、转轴(pivot(2以下哪个范围是数据仓库的数据库规模的一个合理范围(D。A、1100MB、100M10GC、101000GD、100GB 数TB(3存放最低层汇总的方体称为:CA、顶点方体B、方体的格C、基本方体D、维(4哪种OLAP操作可以让用户在更高的抽象层,更概化的审视数据?AA、上卷B、下钻C、切块D、转轴(5平均值函数avg(属于哪种类型的度量?BA、分布的B、代数的C、整体的D、混合的三、多选题(1OLAP系统和OLTP系统的主要区别包括( ABD 。A、OLTP系统主要用于管理当前数据,而OLAP系统主要存放的是历史数据;B、在数

14、据的存取上,OLTP系统比OLAP系统有着更多的写操作;C、对OLTP系统上的数据访问量往往比对OLAP系统的数据访问量要大得多;D、OLAP系统中往往存放的是汇总的数据,而OLTP系统中往往存放详细的数据。(2从结构的角度看,数据仓库模型包括以下几类:ABCA、企业仓库B、数据集市C、虚拟仓库D、信息仓库(3数据仓库的三层架构主要包括以下哪三部分?BCDA、数据源B、数据仓库服务器C、OLAP服务器D、前端工具(4以下哪些是数据仓库的主要应用?ACDA、信息处理B、互联网搜索C、分析处理D、数据挖掘四、分析与计算题1、何谓数据仓库?为什么要建立数据仓库?答:数据仓库是一种新的数据处理体系结构

15、,是面向主题的、集成的、不可更新的(稳定性、随时间不断变化(不同时间的数据集合,为企业决策支持系统提供所需的集成信息。建立数据仓库的目的有3个:一、是为了解决企业决策分析中的系统响应问题,数据仓库能提供比传统事务数据库更快的大规模决策分析的响应速度。二、是解决决策分析对数据的特殊需求问题。决策分析需要全面的、正确的集成数据,这是传统事务数据库不能直接提供的。三、是解决决策分析对数据的特殊操作要求。决策分析是面向专业用户而非一般业务员,需要使用专业的分析工具,对分析结果还要以商业智能的方式进行表现,这是事务数据库不能提供的。2、何谓粒度?它对数据仓库有什么影响?按粒度组织数据的方式有哪些?答:粒

16、度是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。按粒度组织数据的方式主要有:简单堆积结构轮转综合结构简单直接结构连续结构3、假定BigUniversity的数据仓库包含如下4个维:student(student_name, area_id, major, status, universitycourse(course_name, departmentsemester(semester, yearinstructor(dept, rank2个度量:count和avg_grade。在最低概念层,度量avg_

17、grade存放学生的实际课程成绩。在较高概念层,avg_grade 存放给定组合的平均成绩。(a 为数据仓库画出雪花模式图。(b 由基本方体student, course, semester, instructor开始,为列出Big_University每个学生的CS课程的平均成绩,应当使用哪些OLAP操作(如,由学期上卷到学年。(c 如果每维有5层(包括all,如student major status university buys(X, “coke”是一个CA、单维关联规则B、多维关联规则C、混合维关联规则D、不是一个关联规则三、问答及分析计算1、请解释一下在数据挖掘关联规则中什么是支持

18、度和可信度,以及关联规则。答:支持度:规则AB的支持度指的是所有事件中A与B同地发生的的概率,即P(A B,是AB同时发生的次数与事件总次数之比。支持度是对关联规则重要性的衡量。可信度:规则AB的可信度指的是包含A项集的同时也包含B项集的条件概率P(B|A,是AB同时发生的次数与A发生的所有次数之比。可信度是对关联规则的准确度的衡量。关联规则:同时满足最小支持度阈值和最小可信度阈值的规则称之为关联规则。2、数据库有4笔交易,设minsup=60%,minconf=80%。 用Apriori 算法找出所有频繁项集,列出所有关联规则。(参考课本以及课堂教学例子第五讲分类考点1、什么是分类?解决分类

19、问题的一般方法?2、在常用的分类方法中决策树技术发现规则的核心是?什么是决策树?如何用决策树进行分类?3、在决策树算法中有CLS,ID3,C4.5,CART等方法,简述ID3算法的基本思想及其主算法的基本步骤。4、什么是属性的信息增益,熵?5、分类模型的误差有哪些?6、什么是过度拟合?解决的办法?复习参考题:一、填空题(1通过对数据进行预处理,可以提高分类和预测过程的准确性、有效性和可伸缩性。(2防止分类中的过分适应的两种方法分别是:先剪枝、后剪枝。二、单选题(1下面哪种分类方法是属于神经网络学习算法?( C A、判定树归纳B、贝叶斯分类C、后向传播分类D、基于案例的推理(2下面哪种分类方法是

20、属于统计学的分类方法?( B A、判定树归纳B、贝叶斯分类C、后向传播分类D、基于案例的推理(3下列哪个描述是正确的?( C A、分类和聚类都是有指导的学习C、分类是有指导的学习,聚类是无指导的学习B、分类和聚类都是无指导的学习D、分类是无指导的学习,聚类是有指导的学习三、问答题1、分类知识的发现方法主要有哪些?分类过程通常包括哪两个步骤?答:分类规则的挖掘方法通常有:决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传算法。分类的过程包括2步:首先在已知训练数据集上,根据属性特征,为每一种类别找到一个合理的描述或模型,即分类规则;然后根据规则对新数据进行分类。2、什么是决策树?如何用决策树进行

21、分类?答:决策树是用样本的属性作为结点,用属性的取值作为分支的树结构。它是利用信息论原理对大量样本的属性进行分析和归纳而产生的。决策树的根结点是所有样本中信息量最大的属性。树的中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别值。决策树用于对新样本的分类,即通过决策树对新样本属性值的测试,从树的根结点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶结点,该叶结点表示的类别就是新样本的类别。决策树方法是数据挖掘中非常有效的分类方法。3、在判定树归纳中,为什么树剪枝是有用的?答:当判定树创建时,由于数据中的噪声和孤立点,许多分枝反应的是训练数据中的异

22、常。剪枝方法处理这种过分适应数据的问题。通常,这种方法使用统计度量,剪去最不可靠的分枝,这将导致较快的分类,提高树独立于测试数据正确分类的可靠性。四、分析题1、根据以下训练样本,计算年龄属性的信息增益值 I(16,4=-(4/16*log2(4/16+(12/16*log2(12/16=0.8113E(年龄=(6/16*I(6,1+(10/16*I(10,3=0.7946Gain(年龄=I(16,4-E(年龄=0.0167第六讲聚类分析考点:1、什么的聚类?它和分类的区别在哪?2、聚类的主要算法中K-平均算法(k-means的输入、输出及聚类过程是如何实现的?复习参考题:一、填空题(1在数据挖

23、掘中,常用的聚类算法包括:划分方法、层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。(2聚类分析常作为一个独立的工具来获得数据分布的情况。(3一个好的聚类分析方法会产生高质量的聚类,具有两个特征:高类内相似度、低类间相似度。(4许多基于内存的聚类算法所常用的两种数据结构是数据矩阵、相异度矩阵。(5基于网格的聚类方法的优点是:处理数度快。(6孤立点产生的主要原因包括:度量或执行错误、数据变异的结果。(7在基于统计的孤立点检测中,常用于不一致性检验的参数包括:数据分布、分布参数、预期的孤立点数。二、单选题(1下面那种数据挖掘方法可以用来检测孤立点?C 。A.概念描述B.分类和预测C.聚

24、类分析D.演变分析(2以下哪个指标不是表示对象间的相似度和相异度C 。A、Euclidean距离B、Manhattan距离C、Eula距离D、Minkowski距离(3以下哪种聚类方法可以发现任意形状的聚类?CA、划分的方法B、基于模型的方法C、基于密度的方法D、层次的方法三、问答题1、何谓聚类?它与分类有什么异同?答:聚类是将物理或抽象对象的集合分组成为多个类或簇(cluster的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。聚类与分类不同,聚类要划分的类是未知的,分类则可按已知规则进行;聚类是一种无指导学习,它不依赖预先定义的类和带类标号的训练实例,属于观察式

25、学习,分类则属于有指导的学习,是示例式学习。2、简述ID3算法的基本思想及其主算法的基本步骤。答:首先找出最有判别力的因素,然后把数据分成多个子集,每个子集又选择最有判别力的因素进一步划分,一直进行到所有子集仅包含同一类型的数据为止。最后得到一棵决策树,可以用它来对新的样例进行分类。主算法包括如下几步:从训练集中随机选择一个既含正例又含反例的子集(称为窗口;用“建树算法”对当前窗口形成一棵决策树;对训练集(窗口除外中例子用所得决策树进行类别判定,找出错判的例子;若存在错判的例子,把它们插入窗口,重复步骤,否则结束。四、分析计算1、给定两个向量对象,分别表示为p1(22,1,42,10,p2(2

26、0,0,36,8:(a 计算两个对象之间的欧几里得距离;(b 计算两个对象之间的曼哈顿距离;(c 计算两个对象之间的切比雪夫距离;(d 计算两个对象之间的闵可夫斯基距离,用x=3。答:(a 计算两个对象之间的欧几里得距离: (b 计算两个对象之间的曼哈顿距离: (d计算两个对象之间的闵可夫斯基距离,其中参数r=3:2、假设数据挖掘的任务是将如下的八个点(用(x,y代表位置)聚类为三个类。 A1(2,10,A2(2,5,A3(8,4,B1(5,8,B2(7,5,B3(6,4,C1(1,2,C2(4,9 距离函数是 Euclidean(欧几里得)函数。假设初始我们选择 A1,B1,和 C1 为每个

27、簇的 中心,用 k-means(K-平均算法)算法来给出: (a) 在第一次循环执行后的三个簇中心 (b) 最后的三个簇 思路:K 均值算法的过程为 (1) 选择 K 个点作为初始质点。 (2) repeat (3) 每个点指派到最近的质心,形成 K 个簇。 (4) 重新计算每个簇的质心、 (5)until 质心不发生变化。 A1,B1,C 作为初始质点,距离函数是 Euclidean 函数,指派点到最近的质心,方法为计算其 他点到质点的欧几里得距离。计算距离如下: A1-A2 :dist=(2-22 +(5-102=25; A1-A3:dist=(8-22+(4-102=72; A1-B2:

28、dist=(7-22+(5-102 =50; A1-B3:dist=(6-22+(4-10 2=52; A1-C2:dist=(4-22+(9-102=5; B1-A2:dist=(2-52+(5-82=18; B1-A3:dist=(8-52+(4-82=25; B1-B2:dist=(7-52+(5-82=13 B1-B3:dist=(6-52+(4-82=17 B1-C2:dist=(4-52+(9-82=2 C1-A2:dist=(2-12+(5-22=10 C1-A3:dist=(8-12+(4-22=53 2 2 2 2 C1-B2:dist=(7-1 +(5-2 =45 C1-B

29、3:dist=(6-1 +(4-2 =29 C1-C2:dist=(4-12+(9-22=58 其他五个结点选择与其最近的质心,三个簇分别为: B1,C2,B3,B2,A3C1,A2A1 计算这三个簇的质心: B1,C2,B3,B2,A3 的质心为: ( (8+5+7+6+4) /5,(4+8+5+4+9/5即 (6, 6) ; C1,A2的质心为: ( (2+1)/2, (5+2)/2)即为(1.5,3.5); A1的质心为(2,10) 。 (a) 在第一次循环执行后的三个簇中心分别为(6,6) , (1.5,3.5) , (2,10) 重新指派各个对象到离其最近的质心, 与上面方面相同,

30、形成的三个簇为 A3,B1,B2,B3 , C1,A2 , A1,C2三个簇的质心分别为(6.5,5.25) , (1.5,3.5) , (3,9.5);重新指 派各个对象到离其最近的质心, 形成的三个簇为:A3,B2,B3C1,A2 A1,B1,C2 三个簇的质心分别为: (7,4.3) , (1.5,3.5) , (3.67,9) ;重新指派各个对象到离其最近 的质心, 形成的三个簇为: A3,B2,B3C1,A2 A1,B1,C2三个簇的质心分别为: (7, 4.3) , (1.5,3.5) , (3.67,9) ;至此质心不发生变化; (b) 最后三个簇即为A3,B2,B3C1,A2 A1,B1,C2;

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!