数据挖掘实验报告

上传人：m**** 文档编号：223774097 上传时间：2023-07-21 格式：DOCX 页数：12 大小：89.07KB

收藏版权申诉举报下载

第1页 / 共12页

第2页 / 共12页

第3页 / 共12页

下载文档到电脑，查找使用更方便

15 积分

下载资源

资源描述：

《数据挖掘实验报告》由会员分享，可在线阅读，更多相关《数据挖掘实验报告（12页珍藏版）》请在装配图网上搜索。

1、数据挖掘实验报告学院名称计算机科学与技术学院专业名称学生学号5指导教师二O六年十一月实验容实验一一、实验原理（1）.缺省值的处理：用均值替换、回归查补和多重查补对缺省值进行处理通过R语言提供的方法确定哪些有缺省值，哪些是异常值，并把异常置为缺失值来处理，通过表格形式打印出来。将数据集分成完整数据和缺失数据两部分。（2）.用均值替换：求变量未缺失部分的均值，用均值替换缺失。回归查补：是把缺失属性作为因变量，其他相关属性作为自变量，利用他们之间的关系建立回归模型的来预测缺失值，以此完成缺失值插补的方法。（3）.多重查补：多值插补的思想来源于贝叶斯估计，认为待插补的值是随机的，它的值来自于

2、已观测到的值。具体实践上通常是估计出待插补的值，然后再加上不同的噪声，形成多组可选插补值。根据某种选择依据，选取最合适的插补值。多重插补方法分为三个步骤：为每个空值产生一套可能的插补值，这些值反映了无响应模型的不确定性；每个值都可以被用来插补数据集中的缺失值，产生若干个完整数据集合。每个插补数据集合都用针对完整数据集的统计方法进行统计分析。对来自各个插补数据集的结果，根据评分函数进行选择，产生最终的插补值。二、实验目的掌握数据预处理的基本方法。三、实验容1、R语言初步认识（掌握R程序运行环境）2、实验数据预处理。（掌握R语言中数据预处理的使用）对给定的测试用例数据集，进行以下操作。

3、1）、加载程序，熟悉各按钮的功能。2）、熟悉各函数的功能，运行程序，并对程序进行分析。对餐饮销量数据进统计量分析，求销量数据均值、中位数、极差、标准差，变异系数和四分位数间距。对餐饮企业菜品的盈利贡献度（即菜品盈利帕累托分析），画出帕累托图。3）数据预处理缺省值的处理：用均值替换、回归查补和多重查补对缺省值进行处理对连续属性离散化：用等频、等宽等方法对数据进行离散化处理四、实验步骤1. 将数据加载，通过函数计算所需的值2. 对餐饮企业菜品的盈利贡献度（即菜品盈利帕累托分析），画出帕累托图。3. 数据预处理。分别采用等宽离散化，等频离散化，聚类离散化来实现，画出图示结果。五、实验结果1. 销售

4、数据的加载以及对于函数的计算中也fi垢准差支异幕IM井 fits3/4：&H距12755.2152555.359Q34.447-51.02930.2725S4S2451.9753026.1Z5574.152. 画出帕累托图oDgg:so口z oo3. 对数据的预处理（1）缺省值的处理salesdate534+219Q吕3393.11S973136.C1SSa3744.11S7台4050.31S5104060.31S5113614.71S3123295 51S2132332.11S1142693.3ISO152332179163036.81782）对连续属性离散化1、异常值的存在会对挖掘结果带来

5、什么样的不良影响？对异常值分析是检验数据是否有录入错误以及含有不合常理的数据。忽视异常值的存在是十分危险的，不加剔除的把异常值包括进数据的计算分析过程中，会给结果带来不良影响2、为什么需要对数据进行规化？进行规化的目地：规化目的是使结构更合理，消除存储异常，使数据冗余尽量小，便于插入、删除和更新实验二一、基本原理分类算法是解决分类问题的方法。分类算法通过对已知类别训练集的分析，从中发现分类规则，以此预测新数据的类别。分类算法的应用非常广泛，银行中风险评估、客户类别分类、文本检索和搜索引擎分类、安全领域中的入侵检测以及软件项目中的应用等等。二、实验目的：掌握CART决策树构建分类模型。三、实

6、验容对所有窃漏电用户及真诚用户的电量、告警及线损数据和该用户在当天是否窃漏电的标识，按窃漏电评价指标进行处理并选取其中291个样本数据，得到专家样本，使用CART决策树实现分类预测模型。注意：数据的 80%作为训练样本，剩下的20%作为测试样本。四、实验步骤1、对数据进行预处理2、把数据随机分为两部分，一部分用于训练，一部分用于测试。3、使用tree包里的tree函数以及训练数据构建CART决策树模型，使用predict函数和构建的CART决策树模型分别对训练数据和测试数据进行分类。4、使用nnet包里面的nnet函数以及训练数据构建神经网络模型，使用predict函数和构建的神经网络

7、模型分别对训练数据和测试数据进行分类。5、对比分析CART决策树和神经网络模型对数据处理的结果。五、实验结果1、划分后的决策树2、运行的nnet脚本* weigntB:51valj-e179.274737initialiteivalie74.STS934iteivalieitexiteivalj.亡50 553722itei50vdlj.e50.41731itei60vdlj.e50.23756iteivalj.e50.413564itei30valj.e50.12323BiteT90valj-e49.363205itei100vdlie49.957947final valie 45. 357

8、547staged 己ft亡工 1Q0 iterationsI六、思考与分析1、尝试采用神经网络对数据进行分类，并与CART决策树的结果进行比较。比较结果如下图显示0.0 0.20 40.60.81.0alEllAFSOQ.sir!_False positive rate实验三一、实验原理K-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小。算法采用误差平方和准则函数作为聚类

9、准则函数。二、实验目的：1、利用R实现数据标准化。2、利用R实现K-Meams聚类过程。三、实验容1、依据航空公司客户价值分析的LRFMC模型提取客户信息的LRFMC指标。对其进行标准差标准化并保存后，采用k-means算法完成客户的聚类，分析每类的客户特征，从而获得每类客户的价值。编写R程序，完成客户的k-means聚类，获得聚类中心与类标号，并统计每个类别的客户数四、实验步骤1、对已有的数据进行数据清理，对处理后的数据进行保存。2、数据探索，确定探索分析的变量，去掉日期型变量，最终输出变量最值、缺失情况3、将数据进行标准化处理。4、进行聚类分析，得出类别分布。五、实验结果1、数据清理

10、结果：_N0 4nP.DATEFlftfiT.FLlCHT.DATE5 45 932QGD/I1/Z2DOS/12/242 8CD52 00 7/2/102D07/S/3551062 00 7/2/12D07/S/3021 ISO20QS/S/2?2D0S/S/23395462009/4/102DO9/4/1556972200B/2/1D2DO9/9/29-14924200-5/3/222DO6/3/29226B12010/4/92D1D/4/9321972011/6/72011/7/1GENDERM&MEER.FFP.TIERWORK_ITLos； Afig&les；DRANOfWOftK.

11、PftOVlNCECAs. i.WOftK.CXMJICNCNUSCNCN2、聚类分析结果XLRFMC15SS41.D0.1 36S3Q410.006661 S340-0.008600261-.64D01 26D.01 D1050B21 S61 7.00.1 51 643630.02B42I 55070.01 1 9658210.01 0625 420.01 1 75775343434.00.09030097-0.024B04S0920.021 9702900.01 7301 9240.01 93402746206.DD.17S5I727 0.01 1 13I2SS50.01 2SSD4710

12、.MSSD34810.01 065226531025.50.01 32S907O.OOD64735250.01 4 2538150.00S6B84920.01 025527六、思考与分析1、使用不同的预处理对数据进行变化，再使用k-means算法进行聚类，对比聚类的结果。 k-means算法接受参数k ;然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。优点：1.计算时间段，速度快;2.容易解释;3. 聚类效果还不错。实验四一、实验原理A

13、priori 算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。该算法的基本思想是：首先找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。然后使用第1 步找到的频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项，这里采用的是中规则的定义。一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集，使用了递归的方法。二、实验目的掌握 R 语言实现 Apriori 算法的过程。三、实验容1

14、、用 R 导入案例的事务集，每一行为一个事务集。调用其中的关联规则算法函数，输入算法的最小支持度与置信度，获得中医症型系数与患者TNM分期的关联规则，并将规则保存。四、实验步骤1、对数据进行离散化的处理，取六种证型列数，然后对每单个属性列进行聚类操作，结果保存用来后面的实验结果分析。2、对已处理好的数据实行Apriori算法，生成关联规则。五、实验结果1、.、支持度和置信度的值如下图所示set item appea日门亡启5 ,B 0 itenCs) done 000set transact! onr5 ,-26 930 transactiornCs) done 0. 00s.sort! ng

15、 and recadl ng Items 24 itf m(5 done Cl. ODs creating transacfi on tr 更它. done 0. 00s checking subsets af size 1 z 3 41 done th o-DswrKing 2 rule(s) dcxis O- 00s B匚JElng 54 otojecr . - - don 0. ODs. rules孝显示厂刨1四中矣矗抠刚亲数set of 2 rules inspect (rules)屮观迴汩已号中丟氏抑则Ihsrhssupport confidence1 冲任失谓证型累数Y 釘H肾明虔

16、证型慕數-F 3 -4 O- O7 5268B2 0. 87 50-0&D2 F郁拮证塑系數4.H肯明虛证型兼频Y 3 -4 004 9462 0-S795LE1HfL1 1.960 &432 1.570968六、思考与分析1、Apriori 算法的关键步骤是找频繁集与根据置信度筛选规则，明白这两部后，可以按照自己的思路编写与优化关联规则程序。代码如下library(arules) #加载 arules 程序包dat a(Groceries) #调用数据文件frequen tset s=ecla t( Groceries,parame ter=lis t( suppor t=0.05,max

17、len=10) #求频繁项集 inspect(frequentsetsl：10) #察看求得的频繁项集inspect(sort(frequentsets,by=support” )l：10) #根据支持度对求得的频繁项集排序并察看 (等价于 inspect(sort(frequentsets)l：10)rules=apriori(Groceries,parameter=list(support=0. 01,confidence=0.01) #求关联规则 summary(rules) #察看求得的关联规则之摘要x=subse t(rules,subse t=rhs%in%whole milk &

18、 lif t=1.2) #求所需要的关联规则子集 inspect(sort(x,by=support )1：5) #根据支持度对求得的关联规则子集排序并察看 lhs rhs support confidence lift1 other vegetables = whole milk 0.07483477 0.3867578 1.5136342 rolls/buns = whole milk 0.05663447 0.3079049 1.2050323 yogur t = whole milk 0.05602440 0.4016035 1.5717354 root vege tables = whole milk 0.04890696 0.4486940 1.7560315 t ropical frui t = whole milk 0.04229792 0.4031008 1.577595

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

数据挖掘实验报告

最新文档

相关资源

相关搜索