数据挖掘考试题

上传人：小鹤文档编号：174689066 上传时间：2022-12-16 格式：DOCX 页数：13 大小：43.95KB

收藏版权申诉举报下载

第1页 / 共13页

第2页 / 共13页

第3页 / 共13页

下载文档到电脑，查找使用更方便

20 积分

下载资源

资源描述：

《数据挖掘考试题》由会员分享，可在线阅读，更多相关《数据挖掘考试题（13页珍藏版）》请在装配图网上搜索。

1、数据挖掘考试题一选择题1. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？( )2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，它是一种凝聚层次聚类技术。“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。A 分类 B 预测C 关联规则分析D 聚类4关于K均值和DBSCAN的比较，以下说法不正确的是()A. K均值丢弃被它识别为噪声的对象，而DBSCAN 一般聚类所有对象。B. K均值使用簇的基于原型的概念，DBSCAN使用基于密度的概念。C. K 均值很难处理非球形的簇和不同大小的簇， DBSCAN 可以处理不同大小和不同形状的

2、簇D. K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇s Method 说法错误的是：( )C. 对于Ward方法，两个簇的邻近度定义为两个簇合并时导致的平方误差D. 当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似6. 下列关于层次聚类存在的问题说法正确的是：( )A. 具有全局优化目标函数B. Group Average擅长处理球状的簇C. 可以处理不同大小簇的能力D. Max 对噪声点和离群点很敏感7. 下列关于凝聚层次聚类的说法中，说法错误的事：( )A.一旦两个簇合并，该操作就不能撤销8规则牛奶，尿布-啤酒的支持度和

3、置信度分别为：（）TID项集1面包，牛奶2面包，尿布，啤酒，鸡蛋3牛奶，尿布，啤酒，可乐4面包，牛奶，尿布，啤酒5面包，牛奶，尿布，可乐9下列（）是属于分裂层次聚类的方法。10.对下图数据进行凝聚聚类操作，簇间相似度使用MAX计算，第二步是哪两个簇合并:（）11I2I3I4I511121314151,000,900 100,650,200.901.000.700.600.500.100.701.000.400.300.650.600.401.000.800.200.500.300.801.00A.在3和1,2合并B.3和4,5合并C.2,3和4,5合并D. 2,3和4,5形成簇和3合并二.填空

4、题：1. 属性包括的四种类型：、。2. 是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。3. 基本凝聚层次聚类算法空间复杂度，时间复杂度，如果某个簇到其他所有簇的距离存放在一个有序表或堆中，层次聚类所需要的时间复杂度将。4. 聚类中，定义簇间的相似度的方法有（写出四个）：、。5. 层次聚类技术是第二类重要的聚类方法。两种层次聚类的基本方法：、。6. 组平均是一种界于和之间的折中方法。7. 相似度矩阵可以用相识度表示还可以用表示。8. 全链在处理大小不同的簇时，可能彳破裂，并且偏好。9. 单链技术擅长于处理，但对和很敏感。10. 聚类分析可以看做是一种的分类。（有监督、无监督）三判断题1

5、. 从点作为个体簇开始，每一步合并两个最接近的簇，这是一种分裂的层次聚类方法。（）2. 数据挖掘的目标不在于数据采集策略，而在于对已经存在的数据进行模式的发掘。（）3. 在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。（）4. 当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似。（）5. DBSCAN 是相对抗噪声的，并且能够处理任意形状和大小的簇。（）6. 属性的性质不必与用来度量他的值的性质相同。（）7. 全链对噪声点和离群点很敏感。（）8. 对于非对称的属性，只有非零值才是重要的。（）9. K均值可以很好的处理不同密度的数据。（）1

6、0. 单链技术擅长处理椭圆形状的簇。（）四综合题1. 何为层次聚类？它用哪两种图表示？2. 两种层次聚类的基本方法？两种方法的定义？3. 分别写出Min、Max和组平均的优缺点？4. 写出基本凝聚层次聚类的算法？5由下图已给出的距离矩阵，将Max用于6个点样本数据集，画出层次聚类的树状图？考试题+答案一选择题1. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？ (B)2. (C)将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，它是一种凝聚层次聚类技术。“啤酒与尿布试验”最主要是应用了 (C )数据挖掘方法。A 分类B 预测C 关联规则分析 D

7、聚类4关于K均值和DBSCAN的比较，以下说法不正确的是(A)A. K均值丢弃被它识别为噪声的对象，而DBSCAN 一般聚类所有对象。B. K均值使用簇的基于原型的概念，DBSCAN使用基于密度的概念。C. K 均值很难处理非球形的簇和不同大小的簇， DBSCAN 可以处理不同大小和不同形状的簇D. K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇Method说法错误的是：(CC. 对于Ward方法，两个簇的邻近度定义为两个簇合并时导致的平方误差D. 当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似 7下列关于层次聚类存在的

8、问题说法正确的是：(BA 具有全局优化目标函数B.Group Average擅长处理球状的簇7下列关于凝聚层次聚类的说法中，说法错误的事：(DA.一旦两个簇合并，该操作就不能撤销8规则牛奶，尿布-啤酒的支持度和置信度分别为：（C）TID项集1面包，牛奶2面包，尿布，啤酒，鸡蛋3牛奶，尿布，啤酒，可乐4面包，牛奶，尿布，啤酒5面包，牛奶，尿布，可乐9下列（D）是属于分裂层次聚类的方法。10.对下图数据进行凝聚聚类操作，簇间相似度使用MAX计算，第二步是哪两个簇合并:(B)11 I2 I3 I4 I51 000,900,100,650,200.901.000.700.600.500.100.701

9、.000.400.300.650.600.401.000.800.200.500.300.801.001112131415A.在3和1,2合并B.3和4,5合并C.2,3和4,5合并D. 2,3 和 4,5形成簇和3合并二.填空题:1属性包括的四种类型：标称、序数、区间、比率2组平均是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。3.基本凝聚层次聚类算法空间复杂度时间复杂度如果某个簇到其他所有簇的距离存放在个有序表或堆中，层次聚类所需要的时间复杂度将为OCm 21og m )。4. 聚类中，定义簇间的相似度的方法有（写出四个）：MIN （单链）、MAX （全链）、组平均、Ward方法5.

10、层次聚类技术是第二类重要的聚类方法。两种层次聚类的基本方法：凝聚层次聚类、分裂层次聚类单链和全链之间的折中方法。7. 相似度矩阵可以用相识度表示还可以用.距离表示。8. 全链在处理大小不同的簇时，可能使大的簇破裂，并且偏好球形9. 单链技术擅长于处理非椭圆形状的簇，但对噪声点_和离群点很敏感。10. 聚类分析可以看做是一种无监督的分类。（有监督、无监督）三判断题：1. 从点作为个体簇开始，每一步合并两个最接近的簇，这是一种分裂的层次聚类方法。（X2. 数据挖掘的目标不在于数据采集策略，而在于对已经存在的数据进行模式的发掘。（3. 在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚

11、类的效果就越差。（x）4. 当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似。（5. DBSCAN是相对抗噪声的，并且能够处理任意形状和大小的簇。（6. 属性的性质不必与用来度量他的值的性质相同。27. 全链对噪声点和离群点很敏感。（x）8. 对于非对称的属性，只有非零值才是重要的。W9. K均值可以很好的处理不同密度的数据。（x）10. 单链技术擅长处理椭圆形状的簇。（X四综合题1. 何为层次聚类？它用哪两种图表示？层次聚类为嵌套簇的聚集，组成一棵层次数。两种主要图的表示：树状图和嵌套簇图。2. 两种层次聚类的基本方法？两种方法的定义？凝聚层次聚类和分裂层次聚类

12、凝聚的：从点作为个体簇开始，每一步合并两个最接近的簇。分裂的：从包含所有点的某个簇开始，每一步分裂一个簇，直到仅剩下单点簇。3.分别写出 Min、 Max 和组平均的优缺点？定义方式优点缺点Min能处理非椭圆形状对噪声和离群点很敏感Max对噪声点和离群点敏感度较小1当处理簇大小不同时，较大的簇容易破裂2.偏好处理球状的簇组平均对噪声点和离群点敏感度较小偏好处理球状的簇4写出基本凝聚层次聚类的算法？算法步骤：(1)计算邻近度矩阵 Repeat(3) 合并最邻近的两个簇(4) 更新邻近度矩阵，以反映新的簇与原来的簇之间的邻近度(5) Until仅剩下一个簇5由下图已给出的距离矩阵，将Max用于6

13、个点样本数据集，画出层次聚类的树状图？P1P2P3P4P5P6P1P2P3P4P5P6这是告诉你的计算过程，现在不要写了。P3和P6最近所以36结合，P2和P5较近，所以25结合，现在是3,6、2,5、 1和4，Dist(3,6,2,5) = max(dist(3,2),dist(6,2),dist(3,5),dist(6,5) 所以3,6和4结合。现在还剩3,6,4、2,5和1 Dist(3,6,4,2,5)=max(dist(3,2),dist3,5,dist(6,2),dist(6,5),dist(4,2),dist(4,5)所以2,5和1结合数据挖掘考试题目关联分析一、10个选择1

14、. 以下属于关联分析的是（）A. CPU性能预测B.购物篮分析C.自动判断鸢尾花类别D.股票趋势建模2. 维克托迈尔-舍恩伯格在大数据时代：生活、工作与思维的大变革一书中，持续强调了一个观点：大数据时代的到来，使我们无法人为地去发现数据中的奥妙，与此同时，我们更应该注重数据中的相关关系，而不是因果关系。其中，数据之间的相关关系可以通过以下哪个算法直接挖掘（）A.K-meansB.Bayes NetworkC.D.Apriori3置信度（confidence）是衡量兴趣度度量（）的指标。A.简洁性B.确定性C.实用性D.新颖性4. Apriori算法的加速过程依赖于以下哪个朿略（） A

15、抽样B剪枝C.缓冲D.并行5以下哪个会降低Apriori算法的挖掘效率（）B.项数减少D.减小硬盘读写速率）B. 二叉树、哈希树D.多叉树、有向无环图B.令人不感兴趣D对异常数据项敏感A.支持度阈值增大C.事务数减少6. Apriori算法使用到以下哪些东东（A.格结构、有向无环图 C.格结构、哈希树7. 非频繁模式（）A.其置信度小于阈值C.包含负模式和负相关模式）注：分别以1、2、3代表之8. 对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是（A. 3可以还原出无损的1B. 2可以还原出无损的1C. 3与2是完全等价的D. 2与1是完全等价的9. Hash tree在Apriori

16、算法中所起的作用是（）10. 以下不属于数据挖掘软件的是（）A.SPSS ModelerB.WekaC.Apache SparkD.Knime二、10个填空1关联分析中表示关联关系的方法主要有：和。2关联规则的评价度量主要有：和。3关联规则挖掘的算法主要有：和。4购物篮分析中，数据是以的形式呈现。5. 个项集满足最小支持度，我们称之为。6. 一个关联规则同时满足最小支持度和最小置信度，我们称之。7在回归与相关分析中，因变量值随自变量值的增大（减小）而减小（增大）的现象叫做。&极大频繁项集不能无损还原出频繁项集，是因为它不包含频繁项集的信息。9经典的Apriori算法是逐层扫描的，也就是

17、说它（选:深度/宽度）优先的。10.数据挖掘大概步骤包括：输入数据T预处理T挖掘T后处理T输出知识。其中，输出的知识可以有很多种表示形式，两种极端的形式是：内部结构难以被理解的黑匣子，比如说人工神经网络训练得出的网络；模式结构清晰的匣子，这种结构容易被人理解，比如说决策树产生的树。那么，关联分析中输出的知识的表示形式主要（选:黑匣子/清晰结构）。三、10个判断（）1.啤酒与尿布的故事是聚类分析的典型实例。（）2.Apriori算法是一种典型的关联规则挖掘算法。（）3.支持度是衡量关联规则重要性的一个指标。（）4.可信度是对关联规则的准确度的衡量。（）5.给定关联规则ATB，意味

18、着：若A发生，B也会发生。（）6.频繁闭项集可用来无损压缩频繁项集。（）7.关联规则可以用枚举的方法产生。（）8.Apriori算法产生的关联规则总是确定的。（）9.不满足给定评价度量的关联规则是无趣的。（）10.对于项集来说，置信度没有意义。四、5个简答1. 简述关联规则产生的两个基本步骤。2. Apriori算法是从事务数据库中挖掘布尔关联规则的常用算法，该算法利用频繁项集性质的先验知识，从候选项集中找到频繁项集。请简述Apriori算法的基本原理。3. 简述Apriori算法的优点和缺点。4. 针对Apriori算法的缺点，可以做哪些方面的改进？5. 强关联规则一定是有趣的吗？

19、为什么？数据挖掘考试题目+参考答案一、10个选择1. 以下属于关联分析的是（ B）A. CPU性能预测B.购物篮分析C.自动判断鸢尾花类别D.股票趋势建模2. 维克托迈尔-舍恩伯格在大数据时代：生活、工作与思维的大变革一书中，持续强调了一个观点：大数据时代的到来，使我们无法人为地去发现数据中的奥妙，与此同时，我们更应该注重数据中的相关关系，而不是因果关系。其中，数据之间的相关关系可以通过以下哪个算法直接挖掘（ D）A.K-meansB.Bayes NetworkC.D.Apriori3置信度（confidence）是衡量兴趣度度量（B ）的指标。A.简洁性B.确定性C.实用性D.新颖性4

20、.Apriori算法的加速过程依赖于以下哪个策略（B ）A.抽样B剪枝C缓冲D.并行5以下哪个会降低Apriori算法的挖掘效率（D ）A.支持度阈值增大B.项数减少C.事务数减少D.减小硬盘读写速率6.Apriori算法使用到以下哪些东东（ C）A.格结构、有向无环图B. 二叉树、哈希树C.格结构、哈希树D.多叉树、有向无环图7.非频繁模式（ D ）A.其置信度小于阈值C.包含负模式和负相关模式B.令人不感兴趣D对异常数据项敏感注：分别以1、2、3代表之8. 对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是（ B）A. 3可以还原出无损的1B. 2可以还原出无损的1C. 3与2是完全等

21、价的D. 2与1是完全等价的9. Hash tree在Apriori算法中所起的作用是（C ）A存储数据B查找C.加速查找D.剪枝10. 以下不属于数据挖掘软件的是（ C）A.SPSS ModelerB.WekaD.KnimeC.Apache Spark 二、10个填空1关联分析中表示关联关系的方法主要有：和关联规则2. 关联规则的评价度量主要有：支持度和置信度。3. 关联规则挖掘的算法主要有：Apriori 和FP-Grow th。4购物篮分析中，数据是以不对称二元变量的形式呈现。5. 个项集满足最小支持度，我们称之为频繁项集。6. 一个关联规则同时满足最小支持度和最小置信度，我们称之为强规

22、则。7在回归与相关分析中，因变量值随自变量值的增大（减小）而减小（增大）的现象叫做相关。&极大频繁项集不能无损还原出频繁项集，是因为它不包含频繁项集的支持度信息。9经典的Apriori算法是逐层扫描的，也就是说它是宽度（选:深度/宽度）优先的。10.数据挖掘大概步骤包括：输入数据T预处理T挖掘T后处理T输出知识。其中，输出的知识可以有很多种表示形式，两种极端的形式是：内部结构难以被理解的黑匣子，比如说人工神经网络训练得出的网络；模式结构清晰的匣子，这种结构容易被人理解，比如说决策树产生的树。那么，关联分析中输出的知识的表示形式主要是清晰结构（选:黑匣子/ 清晰结构）。三、10个判

23、断（X）1啤酒与尿布的故事是聚类分析的典型实例。（丿）2.Apriori算法是一种典型的关联规则挖掘算法。（）3支持度是衡量关联规则重要性的一个指标。（）4可信度是对关联规则的准确度的衡量。（X TB，意味着：若A发生，B也会发生。（）6频繁闭项集可用来无损压缩频繁项集。（）7关联规则可以用枚举的方法产生。（产生的关联规则总是确定的。（ X ）9.不满足给定评价度量的关联规则是无趣的。（）10.对于项集来说，置信度没有意义。四、5个简答1. 简述关联规则产生的两个基本步骤。答：关联规则产生的两个基本步骤为：根据给定的支持度从项集中产生频繁项集；根据给定的置信度从频繁项集中产生关联规则。2.

24、Apriori算法是从事务数据库中挖掘布尔关联规则的常用算法，该算法利用频繁项集性质的先验知识，从候选项集中找到频繁项集。请简述Apriori算法的基本原理。答：关联规则的产生并不依赖于Apriori算法，Apriori算法用来加速规则的产生过程。 Apriori算法的加速过程依赖于这样一个先验原理：“频繁项集的子集是频繁的”。3. 简述Apriori算法的优点和缺点。答：Apriori算法的优点：结构简单、易于理解。Apriori算法的缺点：产生大量的候选项集，I/O开销较大。4. 针对Apriori算法的缺点，可以做哪些方面的改进？答：Apriori算法的缺点主要是产生的候选项集较多，从而导致I/O开销较大。由此，可以将庞大的数据集划分为可以装进内存的数据块，利用“频繁项集至少在一个分区中是频繁的” 原理合并各个数据块产生的频繁项集得到最终的频繁项集。5. 强关联规则一定是有趣的吗？为什么？答：不一定。因为：规则的评价标准有很多，可以是客观的也可以是主观的。另外，强规则也可能是负相关的，即因变量值随自变量值的增大（减小）而减小（增大）的现象。

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

数据挖掘考试题

最新文档

相关资源

相关搜索