数据挖掘与数据仓库实验报告

上传人:d**** 文档编号:204054711 上传时间:2023-04-26 格式:DOCX 页数:27 大小:998.75KB
收藏 版权申诉 举报 下载
数据挖掘与数据仓库实验报告_第1页
第1页 / 共27页
数据挖掘与数据仓库实验报告_第2页
第2页 / 共27页
数据挖掘与数据仓库实验报告_第3页
第3页 / 共27页
资源描述:

《数据挖掘与数据仓库实验报告》由会员分享,可在线阅读,更多相关《数据挖掘与数据仓库实验报告(27页珍藏版)》请在装配图网上搜索。

1、数据仓库与数据挖掘实验报告册2016- 2017 学年 第 1 学期班 级:学 号:姓 名:授课教师:杨丽华 实验教师: 杨丽华实验学时: 16 实验组号:1信息管理系实验一 Microsoft SQL Server Analysis Services 的使用实验类型:验证性实验学时:4实验目的:学习并掌握Analysis Services的操作,加深理解数据仓库中涉及的一些概念,如多维数据集, 事实表,维表,星型模型,雪花模型,联机分析处理等。实验内容:在实验之前,先通读自学SQL SERVER自带的Analysis Manager概念与教程。按照自学教 程的步骤,完成对FoodMart数据

2、源的联机分析。建立、编辑多维数据集,进行OLAP操作, 看懂OLAP的分析数据。实验步骤(写主要步骤,可以打印):1.2.3.Anolysis Manager亩吏件日撰作由查看归工具两口曲祐肪CtD_i年和台程却柔-_| Anal/sls ServersEl 遂)LsclSCiJT J-jl信苜止+ _|翱+ _|笑+ 口 + _| E1 丁数5.开蛤愤用元数抿1 ODBC教垢蠢甘理盎用户口颈系藐DSl文件DSff| $电程序跟监避接池犬于用户数据讽电):名称dBASE FilesEkeL FilesMS Acce55 HatabaseVi iia D&.talaEfl Sfimpl-asVi

3、 5u:al f oxTroVi su:al 7 OKfro T abl e sIM!201502105驰动程序Mi cro s of tMicroscEtMi crusoftMi erasoftMi crosoftMicrosoftMi -zi:-:Access dSPSt Drive Ikcel Driver (;+:. il Access A口口白mm Yi 2n:Ed- Yimual Jlzaass碰但).DriverDriverFoxProFoxProDr i v-ar(*.m (*. m Di-LV Dtlv (* mODBC用F数犯法有健了如可与指定数施提供程序连援的信息。用 尸

4、数据源瑚:寸兰前月尸可见,而日只能用丁M前机器上。I 旃定 I取消I,斯堡:I帮助I选择用于定义度量值的教字列事实数据表数字列(U):I1III1III1III1冒productjd timejd customerjd romotion idIntegerIntegerIntegerIntegerInteger度量值名称I源列颦 Store Salee5tore_5alesV Store Coststore_costV Unit Salesunit_sales11上多缝数据集度量值(Q:式上 步旧)II下一步四) 取消 I 帮助旧)I共享蟾度任):多澈指集址度:指宗成品糖列唱J裸列包都明11E

5、履的崟它可以与成员宿刻相同,也可以不凤.健御名别要来自同一十瑟婀(口:名祢成员键列FYodurt Cateozr/prcductjlass. prodLtt.catBaryIFVodurt Gbtcategoryprcduct_cla55b, prodict-SiteategoryBtand NameprzcLicf. b-and_i3Tic1上一步旧)| T-(N) = | 取消 帮助旧)6.7.PTuwta-w m- *1 rrrxirt7 HMHBiil a-vne 虬-Mnf G3Eib ME. *- r-.m-MTM.ITH | WUUKTRLzJ五 TIWE- MftjiJ |if

6、 1*1:扯 *即-f 1 1117*?, ii fB 金.魅i 略 T0 liJI* -h El H ?: o ijr Bl。辱31 J JMC # # l|一 fl.Ju-hKjWmwM虾快+ FrUiHihlLVg.KfS-JS:K*+ 13( + ltttdHfl,-30di.j Crdt+ WO?+ CxnurijnchM Corlax- m门SMdr,REEwn.-kiL,Ch.i5FMM?.T5I1SXjr+ rnii,EairE,m1*4.+ CaradMiki、史小IN.!;a5$ I SMf+ lZ:p*cii.略门:IS.lf* C+ Wg-.5H -J; KJT M.Z

7、l8.I旦|功丝坦埋凰业枣口由申-jaci P 也 Epby| F StareI l-怒 TmA a JEftffl营汕Tf Pad町iiacm L湖I J计豆即SI Mg9.sdaipjh.daleEfrpkPiiHjd(to?而祉_idcuiranwjd日 jyjMidWE1nw_parii.L3carticn_acErLed.xlkri leecItrne_ri *崂-您the .month tha_Yaar 卸云mnth二EcriHi_DLyM wistDrg_d swg_r lAjfcriJj 丈 DT=_njlM stDra_njntcT 知以哄M UK_OtK Nora 顼 al

8、 口hr卜Lr.r nnrk T知匚FreH fj_riane lr:t_nj iwt.nsme M河所_7 PDeriicn_tftfe rtanajd iltijaiirrentjj wi hfcrh rfrinStDTS毋祀 mo理图姻 插入。工具似 琵聊m皿 GJi.tOner-ffl- Country& Slate RovnceEF M QtyS- LnarreE-a房员届性GarterMarital Status 曾 &ij:atDn 碧 veari? inzorns 坦1 .阻匚列虫目口.配1-bniEMarrter Card!mirltd-Status XEiEflvJnccn

9、iE gender totd chickennjm_chklren_at aijcatlnn data_accnt_ mBmber_cjd10.妥推数耍防情留交由巳始|迎朗口 ALU工:Rf!二低|“成|叫或寸IH1荆J Sales区盘械崖:S is True:呼匚TeLcI;田b员onrw:毋&如E:亩 E FTDmotm:S & YBariv income-匪量恒;;呼 Store SalesV G0e CottV UNt gales4 计苴味员 昭 Av&rss卜U到箜:命:始11.E _ Aukll Niwi园的 L-sts9E rccdMrl JHW田加噌廿1_既4凡,顼1皿155

10、SQ DSfl 田CJ*嵯VHP Bi j =wtor E-2jt?3&ra并蜥顽I巾宫,20已WebArtalyis i12%KJii IllJD g* mJPT g S3 也 Hi何 # -g ;JA h|吃心2实验二使用WEKA进行分类与预测实验类型:综合性 实验学时:4实验目的:掌握数据挖掘平台WEKA的使用。综合运用数据预处理、分类与预测的挖掘算法、结果的 解释等知识进行数据挖掘。从而加深理解课程中的相关知识点。实验内容:阅读并理解WEKA的相关中英文资料,熟悉数据挖掘平台WEKA,针对实际数据,能够使 用WEKA进行数据的预处理,能选择合适的分类与预测算法对数据进行分析,并能解释分

11、 析结果。实验步骤(可以打印):1.2.rFBFEEHXE rluxijllFiLrrkTETLbj- TLRahLs Elp ! i 品5 ,H*TUkl+. bul-blkF -0 +. Uuuul IhilU- $ g1_aULiujvC-nui 53153 ILBTt*SCLui pL昭 Lli7闩看| i 3* Allto 助能标签:用亍致泰预处理及针对裁据进彳邪各种处理之间E勺切换。C1)编辑按钮:包括打开各种形式愤据集r生成教据集r撤铠,编辑教据里和保 存。(2 筛选器筮苹:对数据漫彳亍某种殃r比如离散化r二进制化.(3 )兰前信息:显示当前数据集的基本信息包括关系名r属住个数r

12、实例个数等。C 4 )属性信息:包括.所有属性的显示和可以对它们进行的一些操作,比如移除一些无 用属性r樱据集更简洁明了,C5 )选中属性:显示当前:选中的属性的摘要信息r曲如名机 类型.数值等。(6)属性可视化:以直方图的形秘示当前选中眉性r绐人更直观的感受.0。)状态信息:显7R是合任进行数据施,历史记录查专,内存使免信息等。Fitter, CM f ttmrs| AllFi 1erMult FHttrr gupewsed & adnbute Hi inaiantBt任utiEU佛i派础“ it attribute |fi| in Glance监督过滤(supervisedFilter)和

13、非监督过滤(UnsupervisedFilter)4.5.实验三使用WEKA进行关联规则与聚类分析实验类型:综合性 实验学时:4实验目的:掌握数据挖掘平台WEKA的使用。综合运用数据预处理、关联规则与聚类的挖掘算法、结 果的解释等知识进行数据挖掘。从而加深理解课程中的相关知识点。实验内容:阅读并理解WEKA的相关中英文资料,熟悉数据挖掘平台WEKA,针对实际数据,能够使 用WEKA进行数据的预处理,了解属性选择,能选择合适的关联规则与聚类算法对数据进 行分析,并能解释分析结果。实验步骤(可以打印):-S t-atnsDKI* 0Frw+:BII j DMUrI MUdlHh 54L+:!. l

14、l.7ltoUjil.il FlOlllbj-ilr |91hLiOit -P t -h !s-ii inr !li-liridi llaKi! J IliMlTi* 咔 9M *5 ll实验四数据挖掘算法的程序实现实验类型:设计性实验学时:4实验目的:运用数据挖掘、程序设计等相关知识,选择一个数据挖掘的常用算法进行程序设计实现。加 深对数据挖掘算法基本原理、详细执行过程和具体应用情况的理解。实验内容:采用任何一种自己熟悉的编程语言,完成算法的程序设计,并在每个程序设计语句后面进行 详细的注释。能够运用实现的算法来解决某个具体的问题,得到并解释程序运行的结果。推荐的算法:1关联规则:Aprio

15、ri算法2 分类与预测:ID3, C4.5, KNN, BP,3 聚类:k-means实验步骤(可以打印):package Kmn_Arit;import java.util.ArrayList;import java.util.Comparator;import java.util.HashMap;import java.util.List;import java.util.Map;import java.util.PriorityQueue;/夫夫夫author信管151阳凡凡夫内容:KNN算法主体类夫/public class Kmn /夫夫夫设置优先级队列的比较函数,距离越大,优先级越

16、高夫/private Comparator comparator = new Comparator() /实现Comparator这个接口,创建comparator这个对象,类型是KNNNodepublic int compare(KNNNode x1, KNNNode x2) /比较参数x1和参数x2/夫夫夫 比较x1测试元组的距离与x2测试元组的距离的大小夫 如果x1大,则返回1,否则返回0夫/if (x1.getDistance() = x2.getDistance() return 1; else return 0;/夫夫夫获取K个不同的随机数夫随机数的个数夫随机数最大的范围夫生成的随

17、机数数组夫/public List getRandKNum(int k, int max) List rand = new ArrayList(k);/创建一个可以存储数据的List集合对象randfor (int i = 0; i k; i+) int temp = (int) (Math.random () * max);/获取随机数值后,然后乘以max,再强制转换成int类型,赋值给tempif (! rand.contains(temp) rand.add(temp);/如果rand对象不包含temp,就将temp添加到rand集合对象中 else i-;return rand;/最终

18、返回rand对象/*计算测试元组与训练元组之前的距离* param d1测试元组* param d2训练元组* return 距离值*/public double calDistance(List d1, Listd2) double distance = 0.00;for (int i = 0; i d1.size(); i+) distance += (d1.get(i) - d2.get(i) * (d1.get(i) - d2.get(i);/距离值的计算return distance;/返回距离值distance/*执行KNN算法,获取测试元组的类别* param datas训I练数

19、据集夫 param testData测试兀组夫param k设定的K值夫return测试元组的类别夫/public String knn(ListList datas, List testData, int k) PriorityQueue pq = new PriorityQueue(k, comparator);/按照自然顺序存储容量为k的优先级队列List randNum = getRandKNum(k, datas.size();/建立一个列表,列表中保存的是训练数据集中实例的个数/计算当前一个测试数据实例与训练数据集的距离,并按照距离来排序for (int i = 0; i k; i

20、+) int index = randNum.get(i);/获得元组标号List currData = datas.get(index);String c = currData.get(currData.size() - 1).toString();/获得元组类别KNNNode node = new KNNNode(index, calDistance(testData, currData), c);/创建带有参数的KNNNode对象nodepq.add(node);/ System.out.println(距离”+node.getDistance()+测试样例 + index+k值 + k

21、);/*夫统计与测试实例距离最近的数据夫然后将这些数据添加到pq队列中夫/for (int i = 0; i datas.size(); i+) List t = datas.get(i); double distance = calDistance(testData, t); KNNNode top = pq.peek(); if (top.getDistance() distance) pq.remove(); pq.add(new KNNNode(i, distance, t.get(t.size()- 1).toString();/将这些测试实力距离最近的数据添加到pq队列中 retu

22、rn getMostClass(pq);/返回对象 getMostClass(pq)/*夫获取所得到的k个最近邻元组的多数类夫 param pq夫存储k个最近近邻元组的优先级队列夫return多数类的名称夫/private String getMostClass(PriorityQueue pq) Map classCount = new HashMap();/创建一个Map集合对象classCount,弓I用子类对象HashMapfor (int i = 0; i pq .size(); i+) KNNNode node = pq.remove(); String c = node.getC

23、(); if (classCount.containsKey(c) /如果classCount中包含所属类别c,就执行下面这段语句 classCount.put(c, classCount.get(c) + 1); else classCount.put(c, 1);int maxIndex = -1;int maxCount = 0;Object classes = classCount.keySet().toArray();/将Map集合对象classCount转换成数组for (int i = 0; i maxCount) maxindex = i; maxCount = classCo

24、unt.get(classes i); return classesmaxIndex.toString();/将数组classesmaxIndex转换成字符串 package Kmn_Arit;/*夫author信管151阳凡凡夫内容:KNN结点类,用来存储最近邻的k个元组相关的信息夫/public class KNNNode private int index; / 元组标号private double distance; /与测试元组的距离private String c; / 所属类别public KNNNode(int index, double distance, String c)

25、 /创建有三个参数的构造器super();this.index = index;this.distance = distance;this.c = c;/*夫调用get()方法和set()方法* return夫/ public int getindex() return index;/index 的 get()方法public void setIndex(int index) this.index = index;/index 的 set()方法public double getDistance() return distance;/Distance 的 get()方法public void

26、setDistance(double distance) this.distance = distance;/Distance 的 set()方法public String getC() return c;/c的get()方法public void setC(String c) this.c = c;/c的set()方法package Kmn_Arit;import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import java.util.ArrayList;import java.util.Li

27、st;/*夫author信管151阳凡凡夫内容:KNN算法测试类夫/public class TestKNN /*夫从数据文件中读取数据夫 param datas夫存储数据的集合对象夫 param path夫数据文件的路径夫/public void read(ListList datas, String path) try BufferedReader br = new BufferedReader(new FileReader(new File(path);/创建一个读取文件的流对象brString data = br.readLine();/把读取到的文件内容存入到字符串中List l =

28、 null;/创建一个List集合对象lwhile (data != null) String t = data .split( *);/把一个字符串分割成字符数组,保存到t中l = new ArrayList();/子类的对象ArrayList由父类List来引用,泛型为for (int i = 0; i t.length; i+) l .add(Double. parseDouble (ti);/把从t数组中读到的字符串添加到集合对象l中 datas.add(l);/List集合对象l中的元素,添加到你所引用的参数datas集合中data = br.readLine();/继续读取数据,知

29、道为null为止br.close();/关闭流 catch (Exception e) e.printStackTrace();/处理异常/*夫程序执行入口夫 param args夫/public static void main(String args) ( TestKNN t = new TestKNN();/创建TestKNN对象tString datafile = new File().getAbsolutePath() + File.separator + datafile.txt;/读取文件datafile.txt,保存到datafile字符串中String testfile =

30、new File().getAbsolutePath() + File.separator + testfile.txt;/读取文件testfile.txt,保存到testfile字符串中try ListList datas = new ArrayListList();/创建集合对象datas,引用子类ArrayList的对象ListList testDatas = new ArrayListList();/创建集合对象testDatas,引用子类ArrayList的对象 t.read(datas, datafile);/参数datafile是请求读取的字节数,读上来的数据保存在缓冲区data

31、s中,同时文件的当前读写位置向后移t.read(testDatas, testfile);/参数testfile是请求读取的字节数,读上来的数据保存在缓冲区testDatas中,同时文件的当前读写位置向后移Kmn knn = new Kmn();/创建Kmn对象knnfor (int i = 0; i testDatas.size(); i+) List test = testDatas.get(i);/将testDatas读取到的数据,添加到List集合对象test中System. out.print(测试兀组:”);for (int j = 0; j test.size(); j +) S

32、ystem.out.print(test.get(j) + ); System. out .print(类别为:);System. out .println(Math. round (Float.parseFIoat (knn .kn n(datas, test, 3);/结果将舍入为整数:加上1/2,对结果调用floor并将所得结果强制转换为int类型 catch (Exception e) e.printStackTrace();/处理异常hE|ct Eq:kri M 2D17daLW7 .2017011悟 2017dsyi1Oiij以而顷*KMList t loublQ dLaTAifi

33、GiKXNMEm CCit|(F |Q .peak i 1 f r topget弓匕-1) tString U );/ jJ噩血甘项111CM _pflf.ranB vwrifj serl_DfiTW 悴gbl皂eviMnniriMed* restNN网.占 Abcaihn CiProg,wftfif硒言0.9-5160.0326-10.52030.512*: -1瑜和-0.-05270.961?或由;-1瑜朝二D.737SCl . 5 峻-1布元知D.2C31部扪-1wraa-D. i3ZZB0.JS39SH! -1JW顷轿D-545U,gT5片:-1瓶iit祠D.54270.331610.

34、-41710.154凸事内;1 J运行结果 Je EE - M17duy11 lO/dHlnfilnJW: - EdijmR* EdH Nffwiw 5wh Prajflrt Run W7w Hp|ptenninjiwd- Te-jttcjhN p-avs iffipJir-BtionJRIhJ占勺惜1&叩51*血国丫1闵订年月伸日F牛新话那Brilrdfl 前同fl 我无顽 却rtj诵 flirtB Km朝国fl却同目 蜀岫日flrflrdfl 我无顽 神宓a 剃项目 测岫日朝同flQ.&S16 Q.3I203 0.D527 (J.7379G.d22B Q.579 Q.&27 an177 。?33L 0.3G1S Q-.7CH1 0.6663 -539L Q.69SL a.6665 a.nei0032t 0.5612 o.aais 0.6692 0.19O4 036& 0.4607 09316 0.156 0.5555 U.-448 0.3763 。知9 QZg廿殖为:SS1S: 蜩为二 凌w黄明 SS1S: 蜩加4突二题町-1 0.12D食力的=L UrS99S芸毋如L G.126 Q.22fe2 却切 1 .591 03346 廿殖为二 1 L71L 0.533 玲5W为;1实验总结(要求手写):实验中遇到的问题及解决办法、心得、体会、建议等等

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!