数据仓库与数据挖掘习题

上传人:xt****7 文档编号:186003600 上传时间:2023-02-06 格式:PPT 页数:18 大小:209.50KB
收藏 版权申诉 举报 下载
数据仓库与数据挖掘习题_第1页
第1页 / 共18页
数据仓库与数据挖掘习题_第2页
第2页 / 共18页
数据仓库与数据挖掘习题_第3页
第3页 / 共18页
资源描述:

《数据仓库与数据挖掘习题》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘习题(18页珍藏版)》请在装配图网上搜索。

1、习题一习题一假定用于分析的数据包含属性age.数据元组age值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.l(a)使用min-max规范化将age值35变换到,1.0区间。l(b)使用z-score规范化变换age值35,其中age的标准差为岁。l(c)使用小数定标规范化变换age值35。l(d)对于给定的数据,你愿意使用哪种方法?陈述你的理由。解答一解答一(a)使用min-max规范化将age值35变换到,1.0区间。minA=13,maxA=70,new_m

2、inA,new_maxA,而v=35,(b)使用z-score规范化变换age值35,其中age的标准差为岁。3860.00.00.00.113701335 min_min_max_minmaxminAAAAAAnewnewnewvv963.2927809 2770524645403635433230 2725422221202191621513A39.03892.09421.12037.59421.12963.2935AssAvv解答一解答一(续续)(c)使用小数定标规范化变换age值35。由于最大的绝对值为70,所以j=2。(d)对于给定的数据,你愿意使用哪种方法?陈述你的理由。答:更倾向

3、于选择小数定标规范化。因为小数定标规范化会保持数据的分布,这种变换更直观并容易解释 35.01035102jvv习题二习题二2.14 假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215。使用如下每种方法将其划分成三个箱。l(a)等频(等深)划分。l(b)等宽划分。解答二解答二(a)等频(等深)划分。(b)等宽划分。每个区间的宽度是:(215-5)/3=70bin15,10,11,13bin115,35,50,55bin172,91,204,215bin15,10,11,13,15,35,50,55,72bin191bin1204,21

4、5习题三习题三3假定BigUniversity的数据仓库包含如下4个维:student(student_name,area_id,major,status,university),course(course_name,department),semester(semester,year)和instructor(dept,rank);2个度量:count和avg_grade。在最低概念层,度量avg_grade存放学生的实际课程成绩。在较高概念层,avg_grade存放给定组合的平均成绩。(a)为该数据仓库画出雪花形模式图。(b)由基本方体student,course,semester,inst

5、ructor开始,为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的OLAP操作。(c)如果每维有5层(包括all),如“studentmajorstatusuniversityall”,该立方体包含多少方体?解答三解答三解答三解答三b)由基本方体student,course,semester,instructor开始,为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的OLAP操作。这些特殊的联机分析处理(OLAP)操作有:l沿课程(course)维从course_id“上卷”到department。l沿学生(student)维从st

6、udent_id“上卷”到university。l取department=“CS”和university=“Big University”,沿课程(course)维和学生(student)维切块。l沿学生(student)维从university下钻到student_name。c)如果每维有5层(包括all),如“studentmajorstatusuniversityall”,该立方体包含多少方体?l这个立方体将包含54=625个方体。习题四习题四4 假定数据仓库包含4个维:date(day,month,quarter,year),spectator(spectator_name,statu

7、s,phone,address),location(location_name,phone#,street,city,province,country)和game(game_name,description,description,producer);2个度量:count和charge。其中,charge是观众在给定的日期观看节目的付费。观众可以是学生、成年人或老人,每类观众有不同的收费标准。(a)画出该数据仓库的星形模式图。(b)由基本方体 date,spectator,location,game开始,为列出2004 年学生观众在GM-Place 的总代价,应当执行哪些OLAP 操作?解答四

8、解答四解答四解答四(b)由基本方体 date,spectator,location,game开始,为列出2004 年学生观众在GM-Place 的总代价,应当执行哪些OLAP 操作?这些特殊的联机分析处理(OLAP)操作有:沿date维从date id“上卷”到year沿game维从game id“上卷”到all沿location维从location id“上卷”到location name沿spectator维从spectator id“上卷”到status取status=“students”,location name=“GM Place”和year=2004切块习题五习题五5给定两个对象

9、,分别表示为(22,1,42,10),(20,0,36,8):l(a)计算两个对象之间的欧几里得距离l(b)计算两个对象之间的曼哈顿距离l(c)计算两个对象之间的明考斯基距离,p=3习题六习题六假设数据挖掘的任务是将如下 8个点(用(x,y)代表位置)聚类为3个簇:A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)距离函数是欧几里德距离.假设初始选择A1,B1,C1为每个聚类的中心.用k-平均算法来给出(a)在第一次循环执行后的三个聚类中心(b)最后的三个簇解答六解答六(a)(2,10),(6,6),(1.5,3.5

10、)(b)lA1 B1 C2lA3 B2 C3lA2 C1d2A1A2A3B1B2B3C1C2102536+369+425+2516+361+644+129+49+99+1604+91+1616+361+131+641+95316+364529058第一次迭代:中心为1:A1(2,10),2:B1(5,8),3:C1(1,2)因此:1:A1 (2,10)2:A3,B1,B2,B3,C2 (6,6)3:A2,C1(1.5,3.5)d2A1A2A3B1B2B3C1C2102536+369+425+2516+361+644+123217852441133.52+6.52.52+1.526.52+0.5

11、23.52+4.525.52+1.524.52+0.520.52+1.522.52+5.52第二次迭代:中心为1:(2,10),2:(6,6),3:(1.5,3.5)1:A1,C2 (3.5,9.5)2:A3,B1,B2,B3 (6.5,5.25)3:A2,C1(1.5,3.5)d2A1A2A3B1B2B3C1C211+.521+4.5252+5.5222+1.5242+4.5232+5.5222+7.5212+.5224.52+7.524.52+0.2521.52+1.2521.52+2.752.52+0.252.52+1.2525.52+3.2522.52+3.7523.52+6.52.5

12、2+1.526.52+0.523.52+4.525.52+1.524.52+0.520.52+1.522.52+5.52第三次迭代:中心为1:(3.5,9.5),2:(6.5,5.25),3:(1.5,3.5)1:A1,B1,C2 (11/3,9)2:A3,B2,B3 (7,13/3)3:A2,C1(1.5,3.5)d2A1A2A3B1B2B3C1C2123.52+6.52.52+1.526.52+0.523.52+4.525.52+1.524.52+0.520.52+1.522.52+5.52第四次迭代:中心为1:(11/3,9),2:(7,13/3),3:(1.5,3.5)1:A1,B1,C2 (11/3,9)2:A3,B2,B3 (7,13/3)3:A2,C1(1.5,3.5)

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!