《数据仓库》课程设计报告

上传人：d**** 文档编号：117899644 上传时间：2022-07-10 格式：DOCX 页数：8 大小：492.62KB

收藏版权申诉举报下载

第1页 / 共8页

第2页 / 共8页

第3页 / 共8页

下载文档到电脑，查找使用更方便

15 积分

下载资源

资源描述：

《《数据仓库》课程设计报告》由会员分享，可在线阅读，更多相关《《数据仓库》课程设计报告（8页珍藏版）》请在装配图网上搜索。

1、GDOU-B-11-112广东海洋大学学生实验报告书（学生用表）实验名称关于福布斯排行榜的数据挖掘课程名称数据仓库设计与应用课程号学院（系）信息学院专业信息管理与信息系统班级信管 1124学生姓名刘霆钧赵小缘2012116714162015 年 11学号五函实验地点科技楼实验日期月28日关于福布斯排行榜的数据挖掘一、实验目的（1）了解数据挖掘中的聚类分析；（2）充分了解 IBM SPSS Modeler 的数据挖掘能力；二、实验目标（1）理解聚类分析的概念；（2）对福布斯排行榜的数据（源数据来源：福布斯中文网，经过加工整理）进行聚类分析，掌握 SPSS 软件进行数据挖掘的常

2、用步骤；（3）了解聚类分析中各个数据模型的内涵和意义。三、实验内容及结果1. 用自己的话概括数据挖掘中的聚类分析概念。答：聚类分析是将一组对象分成若干类，想同类中的对象具有相似性，不同类中的对象相异性较大。聚类与分类不同的是后者不依赖给定的标准给对象进行分类。2. 使用“福布斯排行榜”数据进行数据挖掘分析。根据2010年至2015年福布斯企业排行榜50强在Excel表格中计算5年各自的平均销售额、平均利润、平均资产和平均市值，并在IBM SPSS Modeler中用“Excel”节点导入数据。Q从2010-2015前50强总汇节点预览（5个字段r 6条记录匸文件宣编辑答生成画目/園表

3、注解年份平均销售额平均利润平均资产平均市值12010.1284.860129.4007009.6201462.08022011.1284860129.4007009.6201462.080320121513.140150.4806903.0801543.340斗2013.1521.120154.4608020.9001624.24052014.1574.180168.9407978.3601725.74062015.1486.880163.0008018.9001921.780（确定图 1“ 2010-2015 总汇”节点预览图 2 “多重散点图”编辑窗口在进行完X轴及Y轴的设置后，运行得到如

4、图3显示的多重散点图。这一结果反映了从2010年到 2015年能进入福布斯排行榜前列对其规模、盈利能力和在资本市场影响力的要求不断提高。金额(亿美元)图 3 2010-2015 年福布斯排行榜 50 强（平均）金额变化趋势此“Excel”节点的数据来自2015年福布斯排行榜100强，在图4编辑窗口中，选择过滤“排行”和“企业（名）”，以方便后面的聚类分析。图 4 原始数据过滤在“Excel”节点之后建立“类型”节点，如图5所示，六个字段的角色均设置为“输入”, 其它参数为默认。图 5 “类型”节点编辑窗口图 6 “类型”节点预览建立“K-Means”节点。如图7所示，编辑窗口中，在“使用分

5、区数据”一栏中打钩，其他选择默认。点击运行即生成“ K-Means ”聚类分析。图7“K-Mea ns”模型编辑窗口分析K-Means聚类分析。从图8中可以看到，聚类分析将源数据分成了五个聚类，每个类占总数的比例分别为 45%， 19%， 14%， 11%和 11%。其中，对分类字段的依赖性依次由行业国家、资产、销售额、市值、利润逐渐递减。输入（预测变虽）魂要性 1.0 0.8 0.6 0.4 0.2 匚聚炎聚类聚类-4聚类3大小I I 饬II I19.0%(19)II吩II|11II I1输入保8%)银行關7%）舸陆国家（地X）徳国（50.0%）国家（地区）中国大陆（100.0%）国

6、家（地区）法国（27.39（暑義僻星.82最频繁的类别:美国（64.4%）资产（亿关元）2.830.4资产（亿关元）12.582资产（亿关元）2.574资产（亿关元）14.649资产（亿关元3.415.9ffl H v -EsTaTii林口刁圉显示J 视團（V）: |聚类三重置确定取消聚类大小瑕小聚类大小11 (11%)瑕大聚类大小45 (45%)大小叱率：瑕大聚类叱垠小聚类4.09类类类类类处聚聚聚聚聚聚视图辿）：I聚类大小应用重置图 8“ K-Means ”模型聚类分析结果查看K-Means模型。利用“输出”选项卡中的“表”节点对模型的数据进行查看，如图9。在表中，可以看到每个企业

7、所属的聚类，表中最后一列“$KND-K-Means”是指每一个元素距离类中心的距离，距离越小，表示效果越好。0WgK-Means渤衣件占编辑村生成圃巨芒囲5J国家地区）行业销售魏（亿美元）利润（亿美元）资产（忆美元）市值（亿美元）SKM-K-MeansJKMD-K-Means1中国押击银行1660.000443.00033220.0002783.000莊类-10.963X2中国犬陆银行1305.00037Q.OOO26989.0002129.000蚩类-10.7053中国犬陆银行1292000291 00025743.00D1899.000幣类-10.5244中国犬陆银行1203.00027

8、5.00024583.0001991.000聚类J0.4765美国莪元忙金融1947.00Q139.00C5346.0003-548.000帘类-20.90&6美国银行978.000212.00025936.00D2255.000賤类-40.8297美国能源3762.000325.0003495,000S571.COO愍类-30.9988中国押击3324.000174000877.0006.0000.802g企业集团1485.000152 0006483.0002535.000恶类-20.79910904.000231.00017014.0002783.000赶类諒0.79111耐用消费品25

9、22.000191.0003897,0002390.000聚类-50.85612技求硬件1994.000445.00C2619,0007418.000聚类-21.363134204.000149.0003531,0001954.000賤类-30.81814論消费品2685.0001MOOC4250,0001260.000聚类-50.66215811.000135 00026241.00D1677 000蚩类0.844161918.000192.0002660,0002010.000黠类30.680174857.000164.0002037.0002613.000愁类-21.183-18Jis1

10、959.000219.0002096,0001994000聚类-20.93119939.0007200018460.0001567.000理类-40.60820中国香泡电信服务1041.000177 0002090.0002715 000恶类-21 097图 9表节点查看“ K-Means ”模型图 10 “分析分布图”编辑窗口分析分布图。如图11 所示，从分布图中可以看到每个聚类所占的比例和个数，以及该类所拥有的国家。如果想查看“行业的聚类情况，可以在图10 的编辑窗口中，交叠字段的“颜色”下拉栏中选择“行业”。:卫勺鴻大：HjIE C. A： l匕和寸诂国恢罗祈认T 解国案类-

11、1一$KM K Means =奉契辭訐中畦陆窠类-4-哦类-亍聚尖-3-加拿文关BC 口* d nets- * i 牛咼夭n + K/r102D3040图11“分析分布图”查看聚类结果图 12 “集合”节点编辑窗口除了对聚类分析模型进行分析外，还可以对源数据直接分析。在这里，使用“图形”选项卡下的“集合”节点对原始数据进行分析。运行该节点流，既可获得如图13 的分布图。图中横轴表示“利润”的数额，纵轴表示在横轴上所有该“利润”数额对应的企业所具有的“市值”金额之和。市值（亿美元）超出利润（亿美元）:总数的集合心文件宮编狷生成护视图图形注解A Arial40000利润（亿美元）市值

12、(亿美元)图13“集合”节点流分布图查看原始数据四、实验总结这次数据仓库课程的小组实验对我们组来说非常难忘，从最初的讨论实验选题，再到开始实验的通力合作，以及遇到问题后默契地寻找解决方法，最后顺利完成答辩，过程充满着挑战，但我们都感到很满意整个过程和最后的结果。回顾这个课程实验的细节，我们小组能充分体会到数据挖掘的不易。比如实验题目其实很多方向和备选项，但是数据源却是一个不小的问题，很多数据在网上难以搜索或者不能满足实验的格式，几经思索和讨论，决定才用“福布斯排行榜”的数据。其实做完整个实验会发现，使用SPSS Modeler进行数据挖掘的这个流程并不复杂，而且这次实验采用的聚类分析

13、方法和模型在之前课程作业中有比较充分的认识和实践，实验的难点除了要对聚类分析的结果进行文字形式的解释外，还在于对源数据进行筛选和整理，而我们小组在这一过程中也是边学习边实践。典型的例子是源数据的企业排行榜在 2010 年是有行业划分的，但之后的几年却没有这一分类，实验却需要这个关键因素，如果只是手动地一个个企业输入其所处行业，即使数据只筛选前50 个，这一工作量是非常大的。负责数据编辑任务的我在网上找到了利用Excel中的VLOOKUP公式这一便捷有效的方法，通过这个公式可以很快匹配企业和行业，所以这次实验中学到的一些经验和方法不一定只适用于数据挖掘工作，在普通的办公领域也是非常有用的。在准备最后的答辩时，原本想采用比较常见的 PPT 形式讲解实验，但小组总觉得就算制作华丽也不容易体现我们努力的精华部分，而且如果过多在实验运行和 PPT 间转换会打乱展示的节奏，因此我们选用了 X-Mind思维导图做一个展示提纲，重头戏放在实验运行和嘴巴表述上。临场的效果也的确符合预期，思维导图兼具了逻辑性和简洁的效果，实验的展示和讲解也让老师和同学信服、折服，得到的高分也显得理所应当、甚至锦上添花，毕竟我们小组在实验过程中付出的努力是不可估量，收益的也远不是分数能反映的。成绩指导教师日期注:请用A4纸书写，不够另附纸。第页，共页

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

《数据仓库》课程设计报告

最新文档

相关资源

相关搜索