数据挖掘导论第六章中文答案

上传人:飞*** 文档编号:51333100 上传时间:2022-01-25 格式:DOCX 页数:10 大小:139.37KB
收藏 版权申诉 举报 下载
数据挖掘导论第六章中文答案_第1页
第1页 / 共10页
数据挖掘导论第六章中文答案_第2页
第2页 / 共10页
数据挖掘导论第六章中文答案_第3页
第3页 / 共10页
资源描述:

《数据挖掘导论第六章中文答案》由会员分享,可在线阅读,更多相关《数据挖掘导论第六章中文答案(10页珍藏版)》请在装配图网上搜索。

1、第六章数据挖掘导论1。对于每个下列问题,提供一个关联规则的一个例子 从市场购物篮域,满足下列条件。同样,这些规则是主观地描述是否有趣。(一)一个规则,具有较高的支持和高的信心。答:牛奶-面包。这种明显的规则往往是无趣的。(b)规则,有相当高的支持,但信心不足。|答:牛奶-金枪鱼。而出售金枪鱼和牛奶可能是高于阈值,并不是所有的事务,包含牛奶|也包含金枪鱼。这种低规则往往是无趣的。(c)一个规则,低的支持和信心不足。答:食用油一洗衣粉。如此低的信心规则往往是无趣的。(d)规则,低支持和高的信心。答:伏特加一鱼子酱。这样的规则往往是有趣的2。考虑到数据集显示于表格。(一)计算支持项集 e , b、d

2、 , b、d、e 通过治疗每个事务ID作为一个市场购物篮。答:Table 6.1. Example of rwrket basket transactionsIDTraiiriaction IDtwis Bought10001%4叫10021位也qc200122一003130015色”30022也小d0029忖40040(%瓦研5003350038欣,电j式叩=2 = 58s曲明=水=62网加 &叫= o.j|(小(b) Use the results in part (a) to compute the confidence for the association rules b, d -

3、e and e f b, d. Is confidence a symmetric measure02 c(bd 二 千二in(B:c(e * b/) = - = 25%c、重复部分(一)通过将每个客户ID作为一个市场购物篮。每个项目应被视为一个二进制变量(1如果一个项目出现在至少有一个交易购买的顾客,和0否则。)网明=2 =5与(&,) 1=。.8e没有明显关系s1,s2,c1和c2口d3.(a) Wliat 询 the confidcn %/. Rid m q: rctipcctivvly. Lf wc assume that 勺.c5t and eg have different val

4、ues, what are the possible relationships thnt my( xist ai nong ct. c2: and,口? ,7hi(Q ruk has tho Iowcst (iifdoure? Answer;_日ip.s - 4p)_ 日(puquri6 _ s(p Ug) a(pU gU r)Thus; cl c2 k cU c2.Therefore c2 ha tlu lowest confidence、(f) Reprat the aruilysis in part (b) fvsNiimiiig that the rules havr idfBTic

5、al tupperl. Which rule has the liighcst cDtifidciice?Answer:C-tmsidrnng 导 jpUq = sp U U r) hut *(?) s(p U r) Thus; c3 (cl = c2)所以c2有最低的置信度(d) Lraiisitivit y: Suppose the txjiiEdeiice oi the rules A* 2? and B 口air higer than some t.hrrrnhold, mivcavf. Is it passible that A C has a conftclcnoe Less th

6、an minconf!Answer;Yest It depends on the support of items .4, J?. and CFur example;s(A,B) = 60% b(A) = 90%s(A,C) = 20% .B) = 70%s(EtC)= E晚 s(C) = 60%Let mtn coii f = 50y Ptwrebre:e(A 一 E)= 66% rmneent fc(B C =71% minconfBut c(A - C) 22% 4、C is an anti-monotone measure because、JJ)之 C),c(AC B),c(BC-=n

7、rM -8) s(4C) M&C)=s(4-Smax(s(4 B),C),s(B, C)Since(j4.B.G) l. B).s(4, C),s(B.C) max(5(4),s(B), thereforecan be greater than or less than rj(A.Hence, the measure is non-monotone.Let(百几月= 111ac(Ai - 4如 - - Mit)c(兑总* Mjt-i)C(A.B = maxL(/ 日)百日一.A)_ mw. Wi.第-4 国_1 s(A 1 m:/?)_/40mi-j4.s(砌)门4昆C)max (cA 一k

8、BC)D 一 AC).c(C 4口)i(j4. J?.C) s(A, B. C).max (:L, -.:L)以小)缸B)x(C)3)Since5(4区 C) 8(AtB) and nun(4),若闻。) min(s(A), 5(Z?), (4&(7) can be greater thaj or less than 7Therefore, th? iiiraurp is. ibon-inoriotoiio.Letd(1 儿2,+4) = max(A?-一c(Ai. Ajt-i 4)= max (-c(/lc(B -AN) M4E)i =max f-,f )s(4)式R)_ x(A, B)mi

9、n(s.4 s(JJ)爪4召.G)max (c(AB 一 C),c(AC - B),c(BC 一 A)网儿B),网4C) 1.氏C)s (J1. B. (7)mm 国 A, 8)闻4.。)8, C)俗10)因为 s(A,B,C)c s(A,B)和最小(s(A,B),s(A,C),s(B,C序 min(s(一个),s(B),s(C) wmin(s(一个),s(B)、4 A,B,C 可以大于或小于 小A、B )。因此,这些措施是单调。6.考虑表&23中显示的购物篮事务.舞日/3曲播装务事鼻1D1245 自78910I华妨.M着L尿也| ,出位.黄岫,牛好】 牛奶.尿布.擀干 1面包.黄蟒干1 t呻

10、商,饼干,尿布1 t午的,屎布.莺包.黄油1 而但.款他尿布| 中酒,黑布1IT-聚布.面包,黄油1 |W,饵干)从这些数据中,能修提取出的美联规则的量入数量是彝少包括零支符度的规则)?出)能够提取的频繁项媒的最大氏度是多少(假定最小支持度0) ?(c)写印业谟数据集中能储提取的主顶集的最大数段的表达式.Cd)找出一个具有最大哀拧度的项第(长度为2震更大).S)找出一对项#和弧 使得规则Sf 川和bjf g具有相同的皆信度.(一)的最大数量,可以提取关联规则从这个数据(包括规则,零支持)答:有六项数据集。因此总规则的数量是602。(b)什么是频繁项集的最大大小,可以提取(假设用来 0)答:因为

11、最长的事务包含4项,最大频繁项集的大小是4。(c)编写一个表达式最大数量的大小3项集,可以源自这个数据集。答:;二:【_ : 工(d)找到itemset(大小为2或更大,拥有最大的支持。答:面包、黄油。(e满到一双项目启和这样的规则一 b 和 b -一有同样的信心。答:(啤酒,饼干)或(面包、黄油)。7.考感F面的频箫3-项集的集合tLZ3J1,2,4LLZ1JL4J, 1135kpi 3t 4, 2,3, 54,5假定数据辑中只有5个项.W 列出采用式a”】含井策珞,由候选产生过程得到的所有候选4闻集.(h)列出由京万肯法的候选产生过程得到的所有候选4项集,(C)列用力)算法候选的枝亦舞后剩

12、下的所行候选4的恨.1,2,4,5,1,2,4,6,1,2,5.6.1.345,1,346卜2345.2,3,4,6,2,3,5,6.(b) List all candidate 4-itemsets obtained by the candidate generation procedure in Apiion.Answer;1,2,3,4, 1,2,3,5, 1,2,4,5, 2,3,4,5, 234,6.(c) List all candidate 4-itrmscts that survive the candidate pruning step of the Apiioin algo

13、rithm.Answer:1,2,3,418. Apr/算法使用产生-计数的策略找出频繁项集。通过合并-对大小为大的频繁项集得到一 个大小为4+1的帔选项集(称作候选产生步骤).在候选项集剪枝步骤中,如果一个候选项 集的任何个子集是不频繁的,则该候选项集将被丢弃假定将Apriorf尊法用于表&24所示 数据集,最小支持度为30%,即任何个项集在少于3个事务中出现就被认为是非频繁的.表6-24的物篮事务的例子事务m账买项J|o. b.d.f)2瓦cM3a. b.d14(a. e.rf.r1S他6lb, 4 八7Cd8M瓦c)9,C10WM(a)国由表示衣6-24所示数据集的项集格。用F面的字国标

14、记格中每个结点。 N:如果该项集被AprtoH算法认为不是候选项集.一个项集不是候选项集有两种 可能的原因:它没有在候选项集产生步骤产生,或它在候选项集产牛.步骤产生, 但是由于它的个子集是非频繁的而在候选项集剪枝步骤被丢掉, F:如果该候选项集被Ap也冗算法认为是频繁的. I:如果经过支持度谛效后,该候选项集被发现是非频繁的.(b)期繁顼箧的白分比是多少?(考虑格中所有的项集)比例的频繁项集=16/32 = %(包才null 设置)。(c)对F谈数据集,月产侬胃算法的的枝率是多少?前枝率定义为由于如卜原因不认为 量候it物项集所占的门分比:在候选刖集产生时耒破产生,哽在候选剪肢步嘴被力棹门457125(158)456)459(4567Figures,?. An example of a hash tre stmcture修剪比率的比例是 N的总数量的项目集。因为的计数N = 11,因此修剪比例是11/32 = %。假警告率是界少?(假警告事是指蛭过支持度计箱后被发现是非频繁的候诜1更集所占 的疔分ttQ误警率的比值我总数量的项目集。因为计数的我=5,因此误警率是 532 = %。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!