数据挖掘模拟卷

上传人:小*** 文档编号:154239218 上传时间:2022-09-20 格式:DOC 页数:6 大小:107KB
收藏 版权申诉 举报 下载
数据挖掘模拟卷_第1页
第1页 / 共6页
数据挖掘模拟卷_第2页
第2页 / 共6页
数据挖掘模拟卷_第3页
第3页 / 共6页
资源描述:

《数据挖掘模拟卷》由会员分享,可在线阅读,更多相关《数据挖掘模拟卷(6页珍藏版)》请在装配图网上搜索。

1、数据挖掘模拟卷一、填空题(每格1分,共20分)1、在数据挖掘中,常用的聚类算法包括:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。2、数据仓库的多维数据模型可以有三种不同的形式,分别是:星型模式、雪花模式和事实星座模式。3、从数据分析的角度看,数据挖掘可以分为两类:描述性的数据挖掘和预测性的数据挖掘。4、给定基本方体,方体的物化有三种选择:不物化、全物化和部分物化。5、当前的数据挖掘研究中,最主要的三个研究方向是:数据库技术、统计学、机器学习。6、概念分层有四种类型,分别是:模式分层、集合分组分层、操作导出的分层和基于规.则的分层。7、两种常用的大数据集的数据概化方法是:

2、数据立方体方法(或)和面向属性的归纟内方法。二、单选题(请选择一个正确答案填入括号内,每题2分,共20分)面哪种分类方法是属于神经网络学习算法?()判定树归纳贝叶斯分类2D置信度(confidence)是衡量兴趣度度量A、简洁性B、确定性3. 孤立点挖掘适用于下列哪种场合?A、目标市场分析B、购物篮分析4. 存放最低层汇总的方体称为:A、顶点方体B、方体的格5. 数据归约的目的是()A、填补数据种的空缺值C、得到数据集的压缩表示后向传播分类()的指标。C.、实用性基于案例的推理D、新颖性C、模式识别D、信用卡欺诈检测C、基本方体D、维B、集成多个数据源的数据D、规范化数据面哪种数据预处理技术可

3、以用来平滑数据,消除数据噪声?数据清理数据集成数据变换数据归约7. ()通过将属性域划分为区间,从而减少给定连续值的个数。A.概念分层B.离散化C.分箱D.直方图8. 下面的数据操作中,()操作不是多维数据模型上的OLAP操作。A、上卷(roll-up)B、选择(select)C、切片(slice)D、转轴(pivot)9. 假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是()A.关联分析B.分类和预测C.孤立点分析D.演变分析E.概念描述10. 下列哪个描述是正确的?()A、分类和聚类都是有指导的学习B、分类和聚类都是无指导的学习C、分类是有指导的学习

4、,聚类是无指导的学习D、分类是无指导的学习,聚类是有指导的学习三、多选题(请选择两个或两个以上正确答案填入括号内,每题3分,共15分)1根据关联分析中所涉及的数据维,可以将关联规则分类为:()D、多层关联规则D、规范化A、布尔关联规则B、单维关联规则C、多维关联规则2. 下列哪些是数据变换可能涉及的内容?A、数据压缩B、数据概化C、维归约3. 说明任务相关的数据时,涉及说明()A、包含相关数据的数据库或数据仓库名B、选择相关数据的条件C、相关的属性或维D、关于检索数据的排序和分组指令4从结构的角度看,数据仓库模型包括以下几类:企业仓库数据集市虚拟仓库信息仓库5.数据仓库的主要特征包括()A、面

5、向主题的B、集成的C、时变的D、非易失的四、简答题(共25分)1. 简述面向属性归纳的基本思想,并说明什么时候使用属性删除,什么时候使用属性概化。(7分)答:面向属性归纳的基本思想是:首先使用关系数据库查询收集任务相关的数据;然后.通过考察任务相关数据中每个属性的不同值的个数,进行概化(通过属性删除或者属性.概化)。聚集通过合并相等的广义元组,并累计他们相应的计数值进行。这压缩了概化.后的数据集合。结果广义关系可以映射到不同形式,如图表或规则,提供用户。(分).使用属性删除的情况:如果初始工作关系的一个属性上有大量的不同值,但是()在此属性上没有概化操作符,或()它的较高层概念用其他属性表示;

6、(分)使用属性概化的情况:如果初始工作关系的一个属性上有大量的不同值,并且该属性上.存在着概化操作符。(分)2. 为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行。(6分)答:使用一个独立的数据仓库进行处理是为了以下目的:提咼两个系统的性能操作数据库是为而设计的,没有为操作优化,同时在操作数据库上处理查.询,会大大降低操作任务的性能;而数据仓库是为而设计,为复杂的查询多.维视图,汇总等功能提供了优化。两者有着不同的功能操作数据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访问;这.时如果将事务处理的并行机制和恢复机制用于这种操

7、作,就会显著降低的性能。两者有着不同的数据数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。3. 对于具有递减支持度的多层关联规则挖掘,分别都有哪些搜索策略?各有什么特点?(6分)答:具有递减支持度的多层关联规则挖掘中使用的搜索策略包括:逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝。考察每一个节点,不.管其父节点是否频繁。特点是条件很松,可能导致在低层考察大量非频繁的项,找出一.些不重要的关联;(分)层交叉项集过滤:一个第层的项集被考察,当且仅当它在第层的对应父节点.的项集是频繁的。特点是限制太强,有些有价值的模式可能被该方法过滤掉;(分)层交叉单项过滤:一个第层的

8、项被考察,当且仅当它在第层的父节点是频繁的。它是上述两个极端策略的折中。(分)4跟其他应用领域相比,在电子商务中进行数据挖掘有哪些优势?(6分)答:跟其他应用领域相比,在电子商务中进行数据挖掘的优势包括:电子商务提供海量的数据:“点击流”()将会产生电子商务挖掘的大量数据;丰富的记录信息:良好的站点设计将有助于获得丰富的关于商品、分类、访客等等信息;干净的数据:从电子商务站点收集的都是电子数据,无需人工输入或者是从历史系统进行整合;研究成果容易转化:在电子商务中,很多知识发现都可以进行直接应用;投资收益容易衡量:所有数据都是电子化的,可以非常方便的生成各种报表和计算各种收益。五、算法题(共20

9、分)1Apriori算法是从事务数据库中挖掘单维布尔关联规则的常用算法,该算法利用频繁项集性质的先验知识,从候选项集中找到频繁项集。(1)Aprior算法包括哪两个基本步骤(2分);连接与剪枝(2)对下图中所示的事务数据记录D,(IDI=4),请用图示与说明解释如何使用Apriori算法寻找D中的频繁项集。(假设最小事务支持计数为2)(10分)TID项ID的列表T100A,C,DT200B,C,ET300A,B,C,ET400B,E使用性质由产生连接:使用性质剪枝:频繁项集的所有子集必须是频繁的,对候选项,我们可以.删除其子集为非频繁的选项:的项子集是,其中不是的元素,所以删除这个选项;的项子

10、集是,其中不是的元素,所以删除这个选项;的项子集是,它的所有一项子集都是的元素,因此保留.这个选项。这样,剪枝后得到枝后得到2判定树归纳算法是一种常用的分类算法(1)请简述判定树归纳算法的基本策略(4分);()使用判定树归纳算法,根据顾客年龄(分为个年龄段:,)3收入(取值为,),是否为(取值为和),信用等级(取值为和)来判定用户是否会购买,即构建判定树,假设现有的数据经过第一次划分之后得到如下图所示结果,并根据该结果对每一个划分中的各个属性计算信息增益对的顾客:,对的顾客:,请根据以上结果绘制出判定树,(分)答:()判定树归纳算法的基本策略如下:树以代表单个训练样本的节点开始。如果样本都在同一个类,则该节点成为树叶,并用该类标记。否则,算法使用成为信息增益的基于熵的度量作为启发信息,选择能够最好的将样本分类的属性。对测试属性每个已知的值,创建一个分枝,并据此划分样本。算法使用同样的过程,递归的形成每个划分上的样本判定树。一旦一个属性出现在一个节点上,就不必考虑该节点的任何后代上。递归划分步骤仅当下列条件之一成立时停止:()给定节点的所有样本属于同一类;()没有剩余属性可以用来进一步划分样本,在此情况下,使用多数表决所得的类编.号将节点转化为树叶。()如果某个分枝没有样本,则以其划分前的训练样本的多数类创建一个树叶。()判定树如下所示:

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!