该数据挖掘文档是高校必做的题目的精华版本,附准确,详细的答案数据挖掘作业 答案

上传人:熏** 文档编号:70396366 上传时间:2022-04-06 格式:DOC 页数:43 大小:1.85MB
收藏 版权申诉 举报 下载
该数据挖掘文档是高校必做的题目的精华版本,附准确,详细的答案数据挖掘作业 答案_第1页
第1页 / 共43页
该数据挖掘文档是高校必做的题目的精华版本,附准确,详细的答案数据挖掘作业 答案_第2页
第2页 / 共43页
该数据挖掘文档是高校必做的题目的精华版本,附准确,详细的答案数据挖掘作业 答案_第3页
第3页 / 共43页
资源描述:

《该数据挖掘文档是高校必做的题目的精华版本,附准确,详细的答案数据挖掘作业 答案》由会员分享,可在线阅读,更多相关《该数据挖掘文档是高校必做的题目的精华版本,附准确,详细的答案数据挖掘作业 答案(43页珍藏版)》请在装配图网上搜索。

1、姓名:王燕学号:109070018数据挖掘思考和练习题第一章11 什么是数据挖掘?什么是知识发现?简述KDD的主要过程。答:(1)数据挖掘(Data Mining)是指从大量结构化和非结构化的数据中提取有用的信息和知识的过程,它是知识发现的有效手段。(2)知识发现是从大量数据中提取有效的、新颖的、潜在的有用的,以及最终可理解的模式的非平凡过程。(3)KDD的过程主要包括:KDD的过程主要由数据整理、数据挖掘、结果的解释评论三部分组成。可以由模型表示出来:1确定挖掘目标:了解应用领域及相关的经验知识,从用户的观点出发确定数据挖掘的目标。这一步是实现数据挖掘的重要因素,相当于系统分析,需要系统分析

2、员和用户的共同参与。2建立目标数据集:从现有的数据中,确定哪些数据是与本次数据分析任务相关的。根据挖掘目标,从原始数据中选择相关数据集,并将不同数据源中的数据集中起来。在这一阶段需要解决数据挖掘平台、操作系统和数据源数据类型等不同所产生的数据格式差异。3数据清洗和预处理:这一阶段即是将数据转变成“干净”的数据。目标数据集中不可避免地存在着不完整、不一致、不精确和冗余地数据。数据抽取之后必须利用专业领域地知识对“脏数据”进行清洗。然后再对它们实施相应的方法,神经网络方法和模糊匹配技术分析多数据源之间联系,然后再对它们实施相应的处理。4数据降维和转换:在对数据库和数据子集进行预处理之后,考虑了数据

3、的不变表示或发现了数据的不变的表示情况下,减少变量的实际数目,设法将数据转换到一个更易找到了解的空间上。5选择挖掘算法使用合适的数据挖掘算法完成数据分析。确定实现挖掘目标的数据挖掘功能,这些功能方法包括概念描述、分类、聚类、关联规则。其次选择合适的模式搜索算法,包括模型和参数的确定。6模式评价和解释根据最终用户的决策目的对数据挖掘发现的模式进行评价,将有用的模式或描述有用模式的数据以可视化技术和知识表示技术展示给用户,让用户能够对模型结果作出解释,评价模式的有效性。结果不能令决策者满意,需要重复以上数据挖掘过程。12 简述数据挖掘涉及的数据类型以及数据的聚合形式。答:数据挖掘中涉及的数据类型有

4、:非数值数据,离散数值数据和连续数值数据,结构化数据和非结构化数据,超文本数据、多媒体数据、空间数据。在聚类处理的数据类型中包括区间标度变量、二元变量、标称型变量等等。时间和日期型数据可以经过适当的函数变换成数值数据后再进行处理。(1)非数值数据向数值数据的转化:神经网络方法只能处理数值数据,因此需要将非数值数据转为数值数据。方法是建立非数值型变量的不同状态值和离散数值之间的对照表。(2)离散数值数据的转化:当变量取一组离散值时,必须对它作某种转化,使得每个离散致值都能产生唯一的一组神经网络输入值。数据的聚合形式: 构造数据立方体。13 简述数据挖掘的相关领域及主要的数据挖掘方法。答:(1)数

5、据挖掘的相关学术应用领域包括:模糊数学方向,数据库,统计学,可视化计算,机器学习,神经网络,决策树,模式视频,支持向量,基于规则的系统,高性能计算,模糊集,聚簇分类等方向。(2)数据挖掘的方法: 决策树:决策树方法是利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的属性字段,建立决策树的一个结点,再根据改属性字段的不同取之建立树的分支。神经网络:它是模拟人类的形象思维,在生物神经网络研究的基础上,根据生物神经元和神经网络的特点,通过简化、归纳、提炼总结出来的一类并行处理网络,利用其非线性映射的思想和并行处理的方法,用神经网络本身的结构来表示输入和输出的关联知识。粗糙集:它是研究不精确

6、、不确定性知识的数学工具。它能在缺少先验知识的情况下,对数据进行分类处理。基于粗糙集的数据挖掘算法实际上就是对大量数据构成的信息系统进行约简,得到一种属性归约集的过程,最后抽取规则。遗传算法:一种基于生物自然选择与遗传机理的随机搜索算法。基本思想是基于进化论和遗传学说。算法从一组随机产生的初始解,称为种群,开始搜索。经过若干代之后,算法收敛,它很可能就是最优解。概率论与数理统计:它是目前数学中最重要、最活跃的学科之一。模糊集:基于模糊数学的一种处理方法。模糊集强调本身的含混性,研究的是属于同一类的不同对象对集合的隶属关系,重在隶属程度。关联分析:它分为两种:关联规则和时序分析。关联规则即在当前

7、记录的各个特征间寻找内在的联系。时序分析即在历史数据中寻找具有时间上相关的记录间的规律性。14 如果面对学校数据库,你人为数据挖掘的目标是什么?答:面对学校数据库,可以挖掘出老师的科研能力,学生的学习情况,教师的人事管理情况,后勤服务情况等等。例如:1)通过对每年招收的新生的学习成绩的分类,可以挖掘出哪个省的学生成绩最好,以便今后放大该省的招生量,获取更好的生源。2)通过对学生四六级成绩,计算机二三级成绩的挖掘,可以考察出哪个院系的学生英语水平更好。3)通过教师的论文发表情况,挖掘出老师的科研能力和水平。4)通过对学校各门学科排课的挖掘,可以合理安排学校的教室。第二章21在现实世界的数据中,经

8、常出现元组的某些属性缺少值的现象。有集中解决该问题的方法?答:出现属性缺少值的现象时,必须在数据清理中对这些空缺值进行处理,处理方法有: 忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。22 假设有人要求你创建一个数据仓库,主要分析关于客户的人口统计(收入、家庭人口、家庭位置和爱好等)。数据仓库的目的在于将特定的产品更新换代推销给合适的潜在的客户群。这个数据仓库应该从哪些地方获取数据源?答:数据仓库的数据是从原有的分散的数据库、数据文件和数据段中抽取来的,数据来源可能既有内部数据又有外部数据。(1)对于内部数据:可以对原有的数据库中的数据进

9、行提取,筛选出对我们有用的数据。(2)对于外部数据,可以从人群中获取信息,即可以进行市场调查诸如问卷调查,统计分析各个层次类别的客户 。因为每一个人都是一个信息源,人们在日常生活中吸引着信息,也在传播着信息。尤其是与选择项目有关的消费者,同行业从业人员,及相关企业的营销人员,往往能够提供大量的、直接的宝贵信息。 熟人、亲戚、朋友、老同学、老部下、老战友、老同事、童年的伙伴,现在的邻居、从前的客户、一个俱乐部的成员等等都是信息源。 (3)从官方或官方服务机构获取信息。 (4)可以从附近的超市,商场及批发零售交易市场、集贸市场直接获得信息。23 假设某数据集包含年龄属性。该属性值(按递增序)如下:

10、13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70 (1) 设箱的深度为3,使用按箱平均值平滑数据。解释你的步骤。评论你的结果; (2)怎样确定数据中的孤立点? (3)还有那些其他的数据平滑方法?答:(1)共有27个数据,由于箱子深度为3,所以箱子个数为27/3=9个。 用平均值平滑BN1:13,15,16 14.67,14.67, 14.67BN2:16,19,20 18.34, 18.34, 18.34BN3:20,21,22 21.00, 21.00, 21.00BN4:22,2

11、5,25 24.00, 24.00, 24.00BN5:25,25,30 25.67, 25.67, 25.67BN6:33,33,35 33.67, 33.67, 33.67BN7:35,35,35 35.00, 35.00, 35.00BN8:36,40,45 40.34, 40.34, 40.34BN9:46,52,70 56.00, 56.00, 56.00(2)孤立点是一类特殊的聚类分析。因此有三种方法可以找出:统计学方法、基于偏移的方法、基于距离的方法。基于统计的方法需要先假设给定数据集满足某种概率分布,然后根据这种概率分布采用合适的不一致检验方法来发现孤立点。基于偏离的孤立点检测

12、通过检查一组对象的主要特征来确定孤立点,如果一个对象与给出的描述发生“偏离”,则认为该对象是“孤立点”。序列异常技术和OLAP数据立方体方法是两种基于偏离的孤立点检测方法。基于距离的孤立点检测算法可以在未知数据分布状态下对多维数据进行分析。如果数据集S中至少有P部分与对象O的距离大于d,那么对象O是一个带参数P和d的基于距离的孤立点。即DB孤立点。下面以基于统计的方法进行孤立点分析:对异常点的检测和把它从数据集中潜在的去除,可以描述为一个从N个样本中选K个与剩余数据显著不同、例外或不相一致的样本过程。一维样本异常点检测方法应用统计学,假定值的分布已知,必须找出基本统计参数,如均值、方差,在这些

13、值和异常点期望的基础上,建立方差函数阈值,所有阈值之外的样本都是异常点。这种方法主要在于对数据分布的预假设。阈值=均值+或-2*标准差本题中:均值=(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36,+40+45+46+52+70)/27=30标准差 12.94所以阈值=(30-2*12.94,30+2*12.94)=(4.12,55.88)所以孤立点为70(3)还可以用边界平滑、众数平滑方法等24 属性子集选择的目的是什么?有哪些启发式方法?答:(1)属性子集选择的目的是找出最小的可以检测并删除不相关、弱相关或

14、冗余的属性或维。使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。在减小属性集挖掘上,它减少了出现在发现模式的属性数目,使得模式更易于理解。(2)对于属性子集选择,通常使用压缩搜索空间的启发式算法。通常,这些方法是贪心算法,其策略是做局部最优选择,期望由此导致全局最优解。属性子集选择的贪心(启发式)方法有:逐步向前选择:该过程由空属性集作为归约集开始,确定原属性集中最好的属性,并将它添加到归约集中。在其后的每一次迭代步,将剩下的原属性集中最好的属性添加到该集合中。逐步向后删除:该过程由整个属性集开始。在每一步,删除尚在属性集中最差的属性。向前选择和向后删除结合:可以将逐步向前选择和向后

15、删除方法结合在一起,每一步选择一个最好的属性,并在剩余属性中删除一个最差的属性。判定树归纳:决策树算法,如ID3、C4.5和CART最初是用于分类的。决策树归纳构造一个类似于流程图的结构,其中每个内部(非树叶)节点表示一个属性的测试,每个分枝对应于测试的一个输出;每个外部(树叶)节点表示一个类预测。在每个节点,算法选择“最好”的属性,将数据划分成类。基于统计分析的归约。图2-1 属性子集选择的启发式方法25 比较星型模式、雪花模式和事实星座模式。答:星型模式包括事实表和一组小的附属表(维表)。雪花模式是星型模式的变种,不同的是将某些维表规范化,雪花型模式中数据表易于维护,节省空间,但是在执行查

16、询时需要更多的关联操作,降低了数据仓库的响应性能,因此,在数据仓库设计中,星型模式更流行。事实星座模式对应多个事实表共享维表。26 假定数据仓库包含三个维:时间、医生和病人,两个度量:病人个数和医生对一位病人的一次诊断收费。(1)列举三种流行的数据仓库建模模式;(2)使用其中一种模式,画出数据仓库的模式图。答:(1)三种流行的建模模式为:星型模型是目前比较流行的,同时也是相当简洁的数据仓库概念模型,它可以很准确地反映出各实体之间的逻辑关系,并依据实体的重要程度,将这种关系展示出来。 雪花模型在星型模型的基础上拓展起来的,它在事实表和维度表的基础上,增加了一类新的表“详细类别表,用于对维度表进行

17、解释”。 事实星座模型需要更多个事实表共享维度表,因而可以被视为星型模型的结合。(2)星型模式: Doctor维表Time维表Patient维表Hospital事实表patient_keypatient_namepatient_sexageaddresssubjectdoctor_keydoctor_namedoctor_sexdeptmenttime_keydaymonthyeartime_keydoctor_keypatient_keypatient_numpatient_fee27 数据仓库实现方法是构造一个称为数据立方体的多维数据库。但是,这会产生大的、稀(Sparse)的多维矩阵。

18、(1)给出一个例子,解释这种大的、Sparse的数据立方体; (2)设计一种实现方法,可以很好地克服这种Sparse矩阵问题。详细解释你的数据结构,讨论空间需求量。 答:(1)例如当利用多维数据库存储OLAP数据时,不需要将多维数据模型中的维度、层划分和立方体等概念转换成其他的物理模型,因为多维数组(矩阵)能很好地体现多维数据模型特点。利用数组实现多维数据模型的优点,在于对数据的快速访问,但同时也会带来存储空间的冗余,即稀疏矩阵问题,进而导致对存储空间的极大需求。 (2)为了解决稀疏矩阵问题,某些产品提出了稀疏维(Sparse)和密度维(Dense)策略。由稀疏维产生索引块,由密度维形成数据块

19、。只有当稀疏维的组合在交易事件初次发生时才创建索引块,进而创建数据块。稀疏维和密度维的引入在一定程度上降低了立方体的存储冗余问题。此外,通过数据压缩技术可降低数据块的存储空间。28 说明为什么概念分层在数据挖掘中是有用的。答:通过将属性值域划分为区间,数据离散化技术可以用来减少给定连续属性值的个数。区间的标记可以替代实际的数据值。用少数区间标记替换连续属性的数值,从而减少和简化了 原来的数据。这导致挖掘结果的简洁、易于使用的、知识层面的表示。对于给定的数值属性,概念分层定义了该属性的一个离散化。通过收集较高层的概念(如青年、中年或老年)并用它们替换较低层的概念(如年龄的数值),概念分层可以用来

20、归约数据。通过这种数据泛化,尽管细节丢失了,但是泛化后的数据更有意义、更容易解释。这有助于通常需要的多种挖掘任务的数据挖掘结果的一致表示。此外,与对大型未泛化的数据集挖掘相比,对归约的数据进行挖掘所需的I/O操作更少,并且更有效。第三章设有下表所示有关超市employee的数据集。注:先由学生自己将表中数据随机扩充为40人,然后按所学知识,完成上述作业要求。Num.NameGenderDepartmentyears_workedagesalaryResidence#_of_children1Jamie WiseMClothing321$20K3511 MainSt. Richmond02San

21、dy JonesFShoe2039$25K125 AustinAve ,Burnaby23CarolFVegetable422$21K351 Austinave, Burnaby04DunchMClothing1131$23k134 Austin Ave, Burnaby25DellaFShoe1939$25k3514 MainSt. Richmond16BillMClothing1535$23k 126AustinAve.,Burnaby27VivFRice1535$23k127AustinAve.,Burnaby28ColinMWine1939$25k3518 MainSt. Richmo

22、nd29ZoeFVegetable424$21k128AustinAve.,Burnaby010BruceMWine323$21k3519 MainSt. Richmond011TracyFShoe526$22k123AustinAve.,Burnaby012EricMMeat628$22k3520 MainSt. Richmond113SarahFClothing1232$23k138AustinAve.,Burnaby214FrankMMeat1838$24k3522 MainSt. Richmond215PollyFWine1737$24k133AustinAve.,Burnaby216

23、GaryMSweet424$21k3523 MainSt. Richmond117RachelFClothing122$20k125AustinAve.,Burnaby018HaroldMWine325$22k3524MainSt. Richmond019SheilaFMeat728$22k136AustinAve.,Burnaby120HenryMVegetable829$22k3526 MainSt. Richmond221SophiaFSweet1232$23k176AustinAve.,Burnaby222HowardMSeafood1333$23k3561 MainSt. Richm

24、ond123SusanFRice727$22k140AustinAve.,Burnaby124JohnMSeafood626$22k3581 MainSt. Richmond125VeraFSweet323$21k139AustinAve.,Burnaby026MarkMRice929$22k3591 MainSt. Richmond127PennyFClothing1839$25k152AustinAve.,Burnaby228MortMVegetable2040$25k3593 MainSt. Richmond229PhoebeFMeat1232$23k186AustinAve.,Burn

25、aby130OliverMVegetable1434$23k3525 MainSt. Richmond131MichelleFSweet323$21k115AustinAve.,Burnaby032RichardMMilk1335$23k365 MainSt. Richmond133MollyFVegetable326$22k545AustinAve.,Burnaby134RobinMShoe1133$23k3564 MainSt. Richmond135JoanFMilk1131$23k105 austinAve, Burnaby236ScenMMilk1535$23k561 MainSt.

26、 Richmond237HilaryFSweet1737$23k169 AustinAve. Burnaby238TernaMVegetable222$20k398 Mainst . Richmond039EllenMMeat828$22k399 AustinAve Burnaby140LindaMMeat929$22k365 Mainst. Richmond1给出下列每个属性的概念层次结构:department, age, years_worked, residence, salary, #_of_children;应用原理:概念分层就是把低层概念映射到高层概念的映射序列。一般数据分为非数值

27、型数据和数值型数据。非数值型数据的概念分层比较简单,因为这种数据的取值是离散的,取值范围是固定的。而对于数值型数据概念分层方法主要有分箱法、聚类分析、基于熵的离散化。根据原理可以将上述数据进行分层如下:第一层第二层DepartmentClothing 、FoodsAge小于等于30岁(青年)、小于等于50岁大于30岁(中年) 、大于50岁(老年)Years worked 小于10年、大于10年ResidenceRichmond、BurnabySalary小于$23K(一级),大于$23K小于$25K(二级)# of children有孩子、无孩子2) 挖掘其主泛化关系;genderdepart

28、mentAgeYears worked SalaryResidence#of childrenCountMClothing中年10二级Burnaby有3MFoods中年10二级Richmond有7MClothing青年10一级Richmond无1MFoods青年10一级Richmond有3MFoods青年10一级Richmond无6MFoods青年10二级Burnaby有4FClothing中年10二级Richmond有1FFoods中年10二级Burnaby有5FClothing青年10一级Burnaby无2FFoods青年10一级Burnaby有3FFoods青年10一级Burnaby无4

29、给出泛化关系的crosstab, bar chart, pie chart以及逻辑规则(logic rule),要求计算出t_weight和d_weight;原理:面向属性归纳产生一个或一组泛化描述,可以用多种不同的形式将描述提供给用户。面向属性归纳方法产生的泛化描述通常以广义关系形式显示。描述可以用交叉表显示,泛化的数据可以用图的形式表示,如条形图、饼图、和曲线。同时广义关系可以用逻辑规则的形式表示。制作交叉表:首先了解交叉表:交叉表最多可以有三个属性。(由于该超市人员年龄没有大于50岁的,因此员工年龄大于50岁部分省去)(交叉表一):该表表示部门、年龄和工资属性。ClothingFoods

30、两部门Age工资count工资count工资count青年(0-30)$20k$22k21$20k$21k$22k1610$20k$21k$22k3611中年(31-50)$20k$22k42$20k$21k$22k1022$20k$21k$22k1424合计93140整理得:将其工资栏数据进行数值处理,进行求平均估算得出新的交叉表为:ClothingFoods两部门Age工资count工资count工资count青年(0-30)$21k3$21k17$42k20中年(31-50)$24k6$24k14$48k20合计$45k9$45k31$90k40通过下表可以画出clothing 部门和f

31、oods部门青年员工和老年员工的工资总额情况的饼图和直方图:ClothingFoods两部门Age工资工资工资总额青年(0-30)$62k$366k$428k中年(31-50)$124k$286k$410k合计$186k$652k$838k计算t_weight, d_weight 部 门年龄层/部门CLOTHINGFOODS两部门工资总额countTdcounttdcounttd青年6615.3%31.7%36684.7%52.7%432100%47.9%中年14230.2%68.2%32869.7%47.2%470100%52.1%所有员工20823%100%69476.9%100%9021

32、00%100%对于该表写出其逻辑规则:(交叉表二):该表所显示属性为:部门、年龄、有无孩子ClothingFoods两部门Age孩子数count孩子数Count孩子数Count青年(0-30)0123000127910121091中年(31-50)0120330120950120128经过整理得出关于年龄、部门和有无孩子三个属性的交叉表,去掉含有0项的属性。ClothingFoods两部门Age孩子数count孩子数Count孩子数Count青年(0-30)030127910121091中年(31-50)1233129512128合计963140画出两部门青年员工和老年员工有无孩子的情况做出直

33、方图和饼图:ClothingFoods两部门Age有孩子的员工人数有孩子的员工人数有孩子的员工人数青年(0-30)01010中年(31-50)61420合计62430ClothingFoods两部门Age无孩子的员工人数无孩子的员工人数无孩子的员工人数青年(0-30)3710中年(31-50)000合计371043计算t_weight, d_weight部 门年龄层/部门CLOTHINGFOODS两部门有孩子人数之和countTdcounttdcounttd青年00%0%10100%41.7%10100%33.3%中年630%100%1470%58.3%20100%66.7%所有员工620%1

34、00%2480%100%30100%100%部 门年龄层/部门CLOTHINGFOODS两部门无孩子人数之和countTdcounttdcountTd青年330%100%770%100%10100%100%中年00%0%00%0%00%0%所有员工330%100%770%100%10100%100%对于该表写出其逻辑规则:(交叉表三)该表所显示属性:年龄、部门、工作年限(由于交叉表三非数值型数据,因此不再画出其直方图和饼图)ClothingFoods两部门Age工作年限count工作年限count工作年限count青年(0-30)(0-5)3(0-5)(6-10)98(0-5)(6-10)12

35、8中年(31-50)(11-15)(16-20)43(11-15)(16-20)76(11-15)(16-20)119合计103040(交叉表四) 该表所显示的属性:部门、性别、年龄ClothingFoods两部门Gender年龄层count年龄层count年龄层countM青年(0-30)中年(31-50)13青年(0-30)中年(31-50)107青年(0-30)中年(31-50)1110F青年(0-30)中年(31-50)24青年(0-30)中年(31-50)76青年(0-30)中年(31-50)910合计103040通过下表可以画出clothing 部门和foods部门青年员工、中年员

36、工人员比例的饼图和直方图:ClothingFoods两部门性别青年(0-30)青年(0-30)人数总计M11011F279合计31720ClothingFoods两部门性别中年(31-50)中年(31-50)人数总计M3710F4610合计71320计算t_weight, d_weight部 门性别/部门CLOTHINGFOODS两部门CounttdcounttDcounttDM19%33%1091%58.8%11100%55%F222.2%66%777.7%41.1%9100%45%所有员工315%100%1785%100%20100%100%部 门性别/部门CLOTHINGFOODS两部门

37、counttdcounttdcountTDM330%42.9%770%53.8%10100%50%F440%57.1%660%46.1%10100%50%所有员工735%100%1365%100%20100%100%对于该表写出其逻辑规则:(交叉表五) 该表所显示的属性:部门、性别、居住地ClothingFoods两部门Gender居住地count居住地count居住地countMRB13RB161RB174FRB16RB012RB118合计112940根据下表,可以绘制出反映不同地区不同性别员工的居住情况的直方图和饼图:ClothingFoods两部门Gender居住地R居住地R居住地RM1

38、1617F101合计21618ClothingFoods两部门Gender居住地B居住地B居住地BM314F61218合计91322计算t_weight, d_weight部 门性别/部门CLOTHINGFOODS两部门居住在R区的人数CounttdcounttDcountTDM15%50%1694.1%100%17100%94.4%F1100%50%00%0%1100%5.5%所有员工211.1%100%1688.9%100%18100%100%部 门性别/部门CLOTHINGFOODS两部门CounttdcounttdcountTDM375%33.3%125%7.6%4100%18.1%F

39、640%57.1%1266.6%92.318100%81.8%所有员工935%100%1359.1%100%22100%100%对于该表写出其逻辑规则:3)孩子和没孩子的雇员的数据描述,要求用到信息增益和/或相关分析来选择属性。分类:先将有孩子和无孩子的雇员进行分类:有孩子的职工信息:genderdepartmentsalaryAgeresidencecountMClothing二级中Burnaby3MFoods二级中Richmond7MFoods一级青Richmond3MFoods一级青Burnaby1FClothing二级中Burnaby4FClothing二级中Richmond1FFoo

40、ds二级中Burnaby5FFoods一级青Burnaby3合计27无孩子职工信息:genderdepartmentsalaryAgeresidencecountMClothing一级青Richmond1MFoods一级青Richmond6FClothing一级青Burnaby2FFoods一级青Burnaby4合计13I(s1,s2)=-27/40*log227/40-13/40*log213/40=0.675*0.567+0.325*1.6216=0.909721) S1表中以部门为例:A=“department”.v=2 取值(clothing、foods)v1=“clothing”,

41、s11=8, s21=3I(s11,s21) =-8/11*log28/11-3/11*log23/11=0.7272*0.4594+0.272*1.8746=0.8438V2=“foods”, s12=19,s22=10I(s12,s22) =-19/29* log219/29-10/29* log210/29=0.6551*0.6101+0.3448*1.5362=0.9292E(A=“department”)=11/40 I(s11,s21)+29/40 I(s12,s22)=0.275*0.8438+0.725*0.9292=0.90567Gain(department)= I(s1,

42、s2)-E(department)=0.90972-0.90567=0.0004052) S1表中,B=“gender”.v=2 取值(M、F)v1=“M”, s11=14, s21=7I(s11,s21) =-14/21* log214/21-7/21* log27/21=0.66*0.585+0.333*1.585=0.917415V2=“F”, s12=13,s22=6I(s12,s22) =-13/19* log213/19-6/19* log26/19=0.684*0.548+0.316*1.663=0.900308E(B=“gender”)=21/40 I(s11,s21)+19/

43、40 I(s12,s22)=0.5250*0.917415+0.475*0.900308=0.9092Gain(gender)= I(s1,s2)-E(gender)=0.90972-0.9092=0.00052 3) S1表中,C=“salary”.v=2 取值(一级、二级)v1=“一级”, s11=7, s21=13I(s11,s21) =-7/20* log27/20-13/20* log213/20=0.35*1.514+0.65*0.621=0.9341V2=“二级”, s12=20,s22=0I(s12,s22)=0E(C=“salary”)=20/40 I(s11,s21)+20

44、/40 I(s12,s22)=0.46705Gain(salary)= I(s1,s2)-E(salary)=0.90972-0.46705=0.442674) S1表中,D=“age”.v=2 取值(中年、青年)v1=“青年”, s11=7, s21=13I(s11,s21)=-7/20* log27/20-13/20* log213/20=0.9341 V2=“中年”, s12=20,s22=0I(s12,s22)=0E(D=“age”)=20/40 I(s11,s21)+0=0.46705Gain(age)= I(s1,s2)-E(age)=0.442675) S1表中,E=“resid

45、ence”.v=2 取值(Burnaby、Richmond)V1=“Richmond”, s11=11, s21=7I(s11,s21)=-11/18* log211/18-7/18* log27/18=0.611*0.7105+0.39*1.363=0.96557V2=“Burnaby”, s12=16,s22=6I(s12,s22)=-16/22* log216/22-6/22* log26/22 =0.727*0.46+0.27*1.875=0.84025E(E=“residence”)=18/40 I(s11,s21)+22/40 I(s12,s22)=0.897Gain(reside

46、nce)= I(s1,s2)-E(residence)=0.90972-0.897=0.01272设属性相关阈值为:0.1,所以部门、性别、住址都可以将其属性移去。 作业3多维关联规则挖掘试对下表给出的数据进行多维关联规则的挖掘,并对你挖掘出来的规则进行评价。必要的情况下,你可增加一些你认为合理或对挖掘会产生理想和结果的数据行。姓名年龄收入学生信誉电话地址邮编买计算机张三234k是良281-322-03282714 Ave. M77388买李四342.8k否优713-239-78305606 Holly Cr78766买王二401.9k否优281-242-32222000 Bell Blvd.

47、70244不买赵五181.2是良281-550-0544100 Main Street70244买刘兰342.5k否优713-239-7430606 Holly Ct78566买杨俊278.9k否优281-355-7990233 Rice Blvd.70388不买张毅389.5k否优281-556-0544399 Sugar Rd.78244买解:多维关联规则挖掘的定义:涉及两个或多个维或谓词的关联规则称为多维关联规。原理:数据库属性可能是分类的或量化的。挖掘多维关联规则的技术可以根据量化属性的处理分为两种基本方法。第一种方法:使用预定义的概念分层对量化的属性离散化。此种方法称之为“使用量化属

48、性的静态离散化挖掘多维关联规则”。第二种方法:根据数据的分布将量化属性离散化或聚类到“箱”。使用多维关联规则来分析客户买不买计算机时,要清理数据。由于每一条记录都包含了上表中各字段,将每条记录中那些能导致顾客购买计算机的字段保留,去除其他字段,减少每一条记录的字段数,生成新记录数据表。然后扫描该记录数据表,在记录中寻找出现频繁的字段值组合。最后由频繁的字段值组合推导出关联关系。理论保障:记录数据表经过数据筛选和清理过程转化为更为简单的记录表是可行的,而记录表产生频繁项集是由Apriori算法保证的,各频繁项集进一步产生关联规则又是可以通过支持度、置信度完成。解 法:数据清理针对原表中的各字段,

49、选择保留那些可能导致顾客购买计算机的字段。这里应选择保留的字段为age “年龄”occupation “职业:是否为学生”credit “信誉”income “收入”buys “是否购买计算机”将这些字段所组成的记录放入一个新的记录表中。由此,针对原数据表中的记录的分析已经转化为对新产生的较小的记录表的分析。可以根据以上Apriori算法在记录表中找到频繁5-项集的集合。即(age, occupation,Income, credit, buys)。因为“买不买计算机”在本例中应该是作为结果出现的,而其他四个字段是作为客观因素或条件出现的,所以我们的方向是产生由 “age”、“income”、

50、“occupation”、“credit”四个字段推导出“buys”的关联规则。先对 age进行分类:(15-30),(31-45)Income进行分类:(0k-4k),4k-10k法一:构建数据立方体:在这里我们仅仅推断二维量化关联规则:0-D顶点立方体2-D立方体1-D立方体(age, income, occupation, credit, buys)ageoccupationincomemeCreditbuysA,IA,OA,CI,CI,OO,CO,BI,BA,BC,B由此推出关联规则:age (x, “15-30”) income (x, “0k-4k”) buys(x, “compu

51、ter”) C=2/2=100%age (x, “15-30”) income (x, “4k-10k”) buys(x, “computer”) C=0(所以此条关联规则可以去掉)age(x, “31-45”) income (x, “0k-4k”) buys (x, “computer”)C=2/3=66.7%age(x, “31-45”) income (x, “4k-10k”) buys (x, “computer”)C=1/1=100%age(x, “15-30”) occupation (x, “学生”) buys (x, “computer”)C=2/2=100%age(x, “

52、31-45”) occupation (x, “不是学生”) buys (x, “computer”)C=3/4=75%age(x, “15-30”) credit (x, “良”) buys (x, “computer”)C= 2/2=100%age(x, “31-45”) credit (x, “优”) buys (x, “computer”)C=3/4=75%credit (x, “良”) income (x, “0k-4k”) buys(x, “computer”)C=2/2=100%credit (x, “优”) income (x, “0k-4k”) buys(x, “comput

53、er”)C=2/3=66.7%credit (x, “优”) income (x, “4k-10k”) buys(x, “computer”)C=1/2=50%credit (x, “良”) income (x, “4k-10k”) buys(x, “computer”)C=1/1=100%occupation(x, “学生”) income (x, “0k-4k”) buys(x, “computer”)C=100%occupation(x, “不是学生”) income (x, “0k-4k”) buys(x, “computer”) C=2/3=66.7%occupation(x, “不是学生”) income (x, “4k-10k”) buys(x, “computer”)C=1/2=50%occupation(x, “不是学生”) credit (x, “优”) buys(x, “computer”) C=3/5=60%occupation(x, “是学生”) credit (x, “良”) buys(x, “computer”)C=100% 假设置信度为70%,所以可以输出相关规则如下:occupation(x, “是学生”) credit (x, “良

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!