R语言数据挖掘特选材料

上传人:仙*** 文档编号:34030468 上传时间:2021-10-20 格式:DOC 页数:22 大小:19.43MB
收藏 版权申诉 举报 下载
R语言数据挖掘特选材料_第1页
第1页 / 共22页
R语言数据挖掘特选材料_第2页
第2页 / 共22页
R语言数据挖掘特选材料_第3页
第3页 / 共22页
资源描述:

《R语言数据挖掘特选材料》由会员分享,可在线阅读,更多相关《R语言数据挖掘特选材料(22页珍藏版)》请在装配图网上搜索。

1、 R语言数据挖掘论文题目:数据挖掘实战之网站智能推荐服务 指导老师: 张 敏 小组成员: 周犬义 王宁 数据挖掘实战之网站智能推荐服务一、背景与挖掘目标伴随着计算机技术、通信技术的日益成熟和广泛应用,互联网自90年代初开始得到迅猛发展,至今虽然只有短短几十年的时间,但它已经发展成为现今信息时代人类生活中不可或缺的重要组成部分,并成为全球范围内传播信息的主要渠道。随之而来的是互联网上信息资源越来越丰富,人们要在浩如烟海的“混乱的”互联网信息世界中找到自己真正感兴趣信息却存在很大的困难,具体表现在:用户不知道如何贴切表达真正想要的网上资源的需求,也不知道如何去更准确有效地寻找,即所谓的 “信息迷失

2、”问题;和对收到的或已经下载的大量无关的信息难以消化,即所谓的“信息过载”问题。虽然我们可以借助于搜索引擎来检索Web上的信息,但仍不能满足不同背景、不同目的和不同时期的查询要求,因为大多数搜索引擎缺少主动性,没有考虑用户的兴趣偏好和用户的不同,无法有效地解决信息过载和信息迷失的问题。为了适应用户不断增长的信息需求,有效地解决信息过载和信息迷失给人们带来的种种问题,研究人员纷纷从人工智能中寻找突破口。在许多探索性研究中,个性化推荐服务作为一种崭新的智能信息服务方式,应用前景广泛,十分引人注目。与搜索引擎不同,推荐系统并不需要用户提供明确的需求,而是通过分析用户的历史行为,根据用户的行为主动推荐

3、能够满足他们兴趣和需求的信息。因此,对于用户而言推荐系统和搜索引擎是两个互补的工具。搜索引擎满足有明确目的的用户需求,而推荐系统能够帮助用户发现感兴趣的内容。因此,在电子商务领域中推荐技术可以起到以下作用:第一,帮助用户发现其感兴趣的物品,节省用户时间、提升用户体验;第二,提高用户对电子商务网站的忠诚度,如果推荐系统能够准确地发现用户的兴趣点,并将合适的资源推荐给用户,用户就会对该电子商务网站产生依赖,从而建立稳定的企业忠实顾客群,提高用户满意度。本案例研究的对象是泰迪智能科技有限公司的泰迪杯竞赛网站,泰迪科技是一家专业从事大数据挖掘应用研发、咨询和培训服务的高科技企业。泰迪杯竞赛网致力于为用

4、户提供丰富的泰迪杯竞赛信息、数据挖掘培训咨询服务,并为参赛者提供了往届优秀作品作为参考,为高校提供了丰富的教学资源,如:案例教程、教学视频、教学书籍、建模工具等。随着网站量增大,其数据信息量也在大幅度增长。用户在面对大量信息时无法及时从中获取自己需要的信息,对信息的使用效率越来越低。这种浏览大量无关信息的过程,造成了用户需要花费大量的时间才能找到自己需要的信息。为了能更好地满足用户需求,依据其网站海量的数据,研究用户的兴趣偏好,分析用户的需求和行为,发现用户的兴趣点。引导用户发现自己的信息需求,将网页精准地推荐给所需用户,帮助用户发现他们感兴趣但很难发现的网页信息。为了能够更好的满足用户需求,

5、依据其网站海量的数据,研究用户的兴趣偏好,分析用户的需求和行为,发现用户的兴趣点,从而引导用户发现自己的信息需求。行为记录原始数据:利用read.csv函数把原始数据导入R语言RStudio中,整理数据进行下一步的处理。当用户访问网站页面时,系统会记录用户访问网站的日志,其访问的数据记录了访问序号、内容id、访问内容、用户id、ip等多项属性的记录,并针对其中的各个属性进行说明,如表 2-2 所示。表 2-2 访问记录属性表属性名称属性说明属性名称属性说明id访问序号browser_type浏览器类型content_id内容idbrowser_version浏览器版本page_path网址pl

6、atform_type平台类型username用户名称platform_series平台系列userid用户idplatform_version平台版本sessionid一次浏览标识data_time访问时间ipip地址mobile_type手机类型country国家agent代理商area区域uniqueVisitorID唯一浏览ID依据所提供的原始数据,确定挖掘目标如下:挖掘目标:1、借助大量用户的访问记录,发现用户的访问行为习惯,对不同需求的用户进行相关服务页面的推荐;2、根据用户访问内容、访问次数等属性特征,深入了解用户对访问网站的行为和目的及关心的内容二、 推荐系统架构总体流程主要步

7、骤:1. 从系统中获取用户访问网站的原始记录。2. 以用户访问jhtml后缀的网页为关键条件,对数据进行处理。3. 对数据进行多维度分析,用户访问时间,用户访问内容,流失用户分析以及用户分群等分析。4. 对数据进行预处理,包含数据去重,数据删选,数据分类等处理过程。5. 对比多种推荐算法进行推荐,通过模型评价,得到比较好的智能推荐模型。通过模型对样本数据进行预测,获得推荐结果数据抽取:1.网页类型分析 图一结论:从去掉.jhtml的网址中针对用户的浏览习惯,对教学资源、竞赛、企业合作、新闻合作进行分类提取分析,其中教学资源、竞赛、企业合作、新闻合作分别占总数的百分比为29.50%、34.50%

8、、9.70%、25.40%,这样让我们更深入地去了解用户需要什么,进而为下一步的推荐提升一定的需要。2.脏数据探索l 脏数据探索一:在记录中,存在一部分这样的用户,他们没有点击具体的网页(.jhtml形式的),点击的大部分是目录网页,总共有12091条记录,应删掉这部分。l 脏数据探索二:对数据中存在部分翻页网址,大量的用户基本只会选择浏览了25页后,如果没有搜索到想要的内容,直接就放弃此次的搜索,很少会选择浏览完全部内容,因为这部分网页存在首页,故对数据处理应删除翻页部分。3.点击次数分析点击次数用户数用户百分比记录百分比1236939.74 5.36 296416.17 4.36 3470

9、7.88 3.19 43906.54 1.80 52654.44 3.00 62023.39 2.74 71682.81 2.66 7次以上113319.01 80.08 分析:1.浏览一次的用户占所有用户39%左右,记录数占5%左右;浏览七次以上的用户占所有用户的80%左右,其中40%的用户,为网址提供了大约90%的浏览量2.对点击次数最大值进行分析,其大多是关于“Python数据分析与挖掘实战图书配套资料下载”的总共2075次。4.网页点击数排名排序网址点击数1tipdm.org/zytj/index.jhtml2469 教学资源2tipdm.org/yxzp/index.jhtml212

10、3 竞赛3tipdm.org/ts/661.jhtml2075 教学资源4tipdm.org/notice/757.jhtml1378 新闻公告5tipdm.org/stpj/index.jhtml1296 竞赛6tipdm.org/qk/729.jhtml1072 竞赛7tipdm.org/ts/654.jhtml 934 教学资源8tipdm.org/jszz/index.jhtml900 竞赛9tipdm.org/ts/785.jhtml 838 教学资源10tipdm.org/ts/578.jhtml 831 教学资源11tipdm.org/xtxm/index.jhtml749 企业

11、合作12tipdm.org/notices/index.jhtml 709 新闻公告13tipdm.org/notice/758.jhtml 661 新闻公告14tipdm.org/sj/638.jhtml648 新闻公告15tipdm.org/ts/index.jhtml645 教学资源16tipdm.org/sj/789.jhtml 569 新闻公告17tipdm.org/sm/736.jhtml 513 竞赛18tipdm.org/ts/655.jhtml505 教学资源19tipdm.org/ts/747.jhtml 487 教学资源20tipdm.org/cgal/index.jht

12、ml 467 竞赛分析:表中可以看出,点击次数排名前20名中,“教学资源”类占了大部分,其次是“竞赛”类,然后是“新闻公告”类。5.同网页翻页的点击数网址点击数比率tipdm.org/yxzp/index.jhtml2123tipdm.org/yxzp/index_2.jhtml 2750.130tipdm.org/yxzp/index_3.jhtml1680.079tipdm.org/yxzp/index_4.jhtml 110.005tipdm.org/yxzp/index_5.jhtml80.004tipdm.org/yxzp/index_6.jhtml50.002tipdm.org/s

13、tpj/index.jhtml1296tipdm.org/stpj/index_2.jhtml1170.090tipdm.org/stpj/index_3.jhtml530.041分析:同一网页中登录次数最多大部分都是从主页搜索引擎直接收索到的网页。可了解到用户进行同网页翻页的比例相对较少,会出现用户衰减的情况。1、如果网页需要翻的页数太多,大量的用户基本只会选择浏览了2-6页后,没有搜索到想要的内容,直接就放弃此次的搜索,很少会选择浏览完全部内容。2、通过搜索入口,直接找到需要的帮助,就不需要对网址进行翻页处理。3、如果翻页情况比较小,可以建议设置全页显示,知识页面无此功能6.数据处理流程三

14、、数据预处理1.数据清洗, 针对上述归纳的脏数据类型,对原始数据进行数据清洗。删除数据类型删除数据记录原始数据记录百分比翻页1277609912.093%乱码错误网址5609910.0081%网站主页2527609914.143%无.html 120916099119.8%重复网页165906099127.2%2.数据选择, 选择记录中.jhtml后缀的记录,并对其进行手动分类处理。类型总记录数百分比(27612)说明zytj、yxsp、jmgj、information、tsasdf、dsjkf、jiao、jmg、tts、sjfxs、sjsdf790628.63%教学资源jszz、stpj、y

15、xzp、cgal、firsttipdm、secondtipdm、thirdtipdm、fourthtipdm、jingsa、kjxm、qk、sdfasf、sm、td954434.56%竞赛qyal、xtxm、wjxq、zxns、zzszl314511.38%企业合作news、notice、notices、sj786928.50%新闻合作3.数据集成:教学资源竞赛 用户泰迪公司 浏览 网页企业合作新闻公告四、统计分析选取知识内容中的教学资源类型进行分析网址内容点击次数tipdm.org/ts/661.jhtmlPython数据分析与挖掘实战图书配套资料下载2075tipdm.org/ts/654

16、.jhtmlR语言分析与挖掘实战图书配套资料下载934tipdm.org/ts/785.jhtml 贾圆圆数据挖掘竞赛平台838tipdm.org/ts/578.jhtmlMatlab分析与挖掘实战图书配套资料下载831tipdm.org/ts/655.jhtmlHadoop分析与挖掘实战图书配套资料下载505对其中的点击次数与网页进行分析。点击次数网页个数(87)网页百分比记录数(2075)记录百分比11011.5%100.48%244.6%80.39%33345%90.43%420757080.46%204898.70%分析:通过教学资源网页类型网页点击排名和网页个数点击次数可以看出,人们

17、对数据挖掘类比较感兴趣,从网页点击个数我们可以看出, 点击4次以上的网页个数占了80%左右,浏览量却占了98%,因此我们可以考虑,按点击行为进行分类,分析构建模型算法。四、模型构建与检验由于用户访问网站的数据记录很大,如果对数据不进行分类处理,对所有记录直接采用推荐系统进行推荐,这样会存在以下问题: 数据量太大意味着物品数与用户数很多,在模型构建用户与物品的稀疏矩阵时,出现设备内存空间不够的情况,并且模型计算需要消耗大量的时间。 用户区别很大,不同的用户关注信息不一样,因此即使能够得到推荐结果,其推荐效果也会不好。 分析思路基于项目的协同过滤性能:UserCF适用于用户较少的场合,否则计算用户

18、相似度矩阵的代价很大;而ItemCF正好相反,适用于项目数明显小于用户数的情况实时性:UserCF用户有新行为,不一定造成推荐结果的立即变化;ItemCF正好相反,一定会导致推荐结果的实时变化长尾物品丰富,用户个性化需求强烈的领域推荐理由:与UserCF相比,ItemCF利用用户的历史行为给用户做推荐解释,更容易让用户信服 算法流程:关联规则是从事务数据库,关系数据库和其他信息存储中大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。更确切的说,关联规则通过量化的数字描述物品甲的出现对物品乙的出现有多大的影响。推荐结果1:教学资源网页类型 (部分如下)用户点击网推荐网$1.12.244

19、.88tipdm.org/index.jhtmltipdm.org/ts/661.jhtml1.tipdm.org/ts/785.jhtml2. tipdm.org/ts/654.jhtml3. tipdm.org/ts/655.jhtml4. tipdm.org/ts/755.jhtml5.tipdm.org/ts/578.jhtml$1.12.253.60tipdm.org/ts/661.jhtmltipdm.org/ts/785.jhtmltipdm.org/sm/736.jhtmltipdm.org/notice/760.jhtmltipdm.org/notice/757.jhtml1

20、.tipdm.org/jmgj/568.jhtml 2.tipdm.org/ts/646.jhtml 3.tipdm.org/jmgj/569.jhtml4.tipdm.org/jmgj/574.jhtml 5.tipdm.org/jmgj/575.jhtml.$1.193.121.55tipdm.org/ts/785.jhtml1.tipdm.org/ts/661.jhtml 2.tipdm.org/ts/786.jhtml 3.tipdm.org/ts/755.jhtml 4.tipdm.org/ts/654.jhtml5.tipdm.org/ts/747.jhtml结果反馈1模型评价:准

21、确率与召回率(Precision & Recall)Precision就是检索出来的条目中(网页)有多少是准确的。Recall就是所有准确的条目有多少被检索出来了推荐结果2:竞赛网页类型(部分如下)用户点击网推荐网$1.119.2.146tipdm.org/td/723.jhtmltipdm.org/zxns/716.jhtmltipdm.org/td/374.jhtml tipdm.org/sm/736.jhtml tipdm.org/td/465.jhtml tipdm.org/td/378.jhtml tipdm.org/qk/729.jhtml$1.12.253.60tipdm.org

22、/ts/661.jhtmltipdm.org/ts/661.jhtmltipdm.org/sm/736.jhtmltipdm.org/notice/760.jhtmltipdm.org/fourthtipdm/774.jhtml tipdm.org/fourthtipdm/778.jhtml tipdm.org/fourthtipdm/777.jhtml tipdm.org/qk/729.jhtml tipdm.org/td/723.jhtml$1.204.118.194tipdm.org/sm/736.jhtmltipdm.org/td/723.jhtml tipdm.org/td/465.

23、jhtml tipdm.org/td/374.jhtml tipdm.org/td/378.jhtml tipdm.org/qk/729.jhtml结果反馈模型检验2推荐结果3:企业合作网页类型(部分如下)用户点击网推荐网$1.119.2.146tipdm.org/td/723.jhtmltipdm.org/zxns/716.jhtmltipdm.org/zxns/773.jhtml tipdm.org/wjxq/724.jhtml tipdm.org/wjxq/660.jhtml tipdm.org/wjxq/516.jhtml tipdm.org/zxns/782.jhtml$1.172.

24、149.161tipdm.org/xtxm/index.jhtmltipdm.org/xtxm/index_2.jhtmltipdm.org/wjxq/728.jhtml tipdm.org/zxns/773.jhtml tipdm.org/wjxq/725.jhtml tipdm.org/zxns/782.jhtml tipdm.org/zxns/716.jhtml$1.204.206.226tipdm.org/fourthtipdm/779.jhtmltipdm.org/fourthtipdm/778.jhtmltipdm.org/secondtipdm/493.jhtmltipdm.or

25、g/zzszl/718.jhtmltipdm.org/kjxm/552.jhtmltipdm.org/wjxq/725.jhtml tipdm.org/wjxq/724.jhtml tipdm.org/wjxq/660.jhtml tipdm.org/zxns/780.jhtml tipdm.org/wjxq/516.jhtml结果反馈模型检验3推荐结果4:新闻公告网页类型(部分如下)用户点击网推荐网$1.12.253.60tipdm.org/ts/661.jhtmltipdm.org/ts/785.jhtmltipdm.org/sm/736.jhtmltipdm.org/notice/760

26、.jhtmltipdm.org/notice/757.jhtmltipdm.org/fourthtipdm/775.jhtmltipdm.org/jmgj/576.jhtmltipdm.org/notice/765.jhtml tipdm.org/notice/787.jhtml tipdm.org/notice/769.jhtml tipdm.org/notice/758.jhtml tipdm.org/notice/743.jhtml$1.180.235.58tipdm.org/sj/789.jhtmltipdm.org/notice/758.jhtml tipdm.org/notice/

27、757.jhtml tipdm.org/notice/661.jhtml tipdm.org/notice/758.jhtml tipdm.org/notice/561.jhtml$1.202.122.101tipdm.org/notice/757.jhtmltipdm.org/notice/758.jhtml tipdm.org/notice/769.jhtml tipdm.org/notice/760.jhtml tipdm.org/sj/789.jhtml tipdm.org/news/465.jhtml 结果反馈模型检验4五、结果分析从推荐结果和模型检验上得出,不同的用户对网址点击的次

28、数有一定的关联规则,更确切的说,就是通过量化的数字描述物品甲的出现对物品乙的出现有多大的影响,进而真正的了解用户,从而对用户进行推荐。从模型的检验上看,我们用了三种检验方法,即随机推荐检验、热点推荐检验、IBCF推荐检验,从检验图形上可以得出热点推荐对用户的召回率和精确度更明显,即随着推荐个数的增加,用户被召回的可能性就越低,而针对这个问题我们更应该深入的去了解用户,给用户推荐他们真正想要的结果。 六、模型应用当前,随着互联网对人们生活影响的不断增大,每天有数以亿计的用户行为数据被网站记录。这些数据以隐性信息的方式反映人们的行为习惯、兴趣爱好、性格特征,甚至是政治主张。网民每天都在告诉我们,他

29、们到底需要什么。而这也正反映了用户的需求,可以说谁能读出用户的需求,谁就能更好地迎合用户,获取更多的流量,其网站的用户体验也就越好。通过用户使用网站时留下的数据来读出用户需求、习惯、爱好。了解到用户真正需要什么,所以在对于日后的网页推荐过程中,建议根据不同类型的网页运用不同的算法进行推荐,即分类推荐,以达到最好的推荐效果。这不但会更好的为用户提供网页推荐服务,而且会加大用户对该公司网页的点击量,并在很大程度上方便用户查找想要的内容。 附录:data- read.csv(C:UsersAdministratorDesktoptipdm.initdata.csv,stringsAsFactors

30、= F) #导入原始数据 #采用匹配的方法找出那些带有.jhtml或.htm形式的网址nf2-datagrep(.jhtml|.htm,data,fullurl), #去除带%、网站主页、乱码类脏数据网址ind1-nf2-grep(_d+|tipdm.org/index.jhtml|.*%.*|tipdm.org/sj/6.jhtml,nf2,fullurl),info-ind1 ,c(ip,fullurl) #从去除脏数据的数据中提取出ip、fullurl两列library(plyr)library(recommenderlab)library(registry) #筛选教学资源类网页ff-

31、infogrep(zytj|yxsp|jmgj|information|ts|asdf|dsjkf|jiao|jmg|tts|sjfxs|sjsdf,info,fullurl), #筛选竞赛类网页ff1-infogrep(jszz|stpj|yxzp|cgal|firsttipdm|secondtipdm|thirdtipdm|fourthtipdm|jingsa|kjxm|qk|sdfasf|sm|td,info,fullurl), #筛选企业合作类网页ff2-infogrep(qyal|xtxm|wjxq|zxns|zzszl,info,fullurl), #筛选新闻公告类网页ff3-in

32、fogrep(news|notice|notices|sj,info,fullurl), info1=ddply(ff, .(ip,fullurl), tail, n = 1) #数据去重web=strsplit(info1,2,/,fixed = TRUE) #对每个LIST型的数据,将其组合成数据框的格式bine=ldply(web,rbind) #获取知识列表中婚姻类别的数据以及在原始数据中的位置tipdm.org=binewhich(bine,1=tipdm.org), item_tipdm.org=info1row.names(tipdm.org),require(recommend

33、erlab) #将数据转换为0-1二元型数据,即模型的输入数据集infoh=as(item_tipdm.org,binaryRatingMatrix) #采用基于物品的协同过滤算法进行模型数据进行建模,形成模型info_re=Recommender(infoh,method=IBCF) #利用模型对原始数据集进行预测并获得推荐长度为10的结果info_p=predict(info_re,infoh,n=10)t - as(info_p,list)t2 - ldply(t,rbind)name - t2,1t2 - t2,-1fun1 0) return(x-grep(index,x) else

34、 return(x)t3 - apply(t2,1,fun1)names(t3) - name #将结果保存至工作目录下的文件中,需要将结果转换为list型。 #对list型结果采用sink与print命令将其保存sink(jiadex1.txt)print(t3)sink() #将三种算法形成一个算法的listalgorithms - list( random items = list(name=RANDOM, param=NULL), popular items = list(name=POPULAR, param=NULL), item-based CF = list(name=IBCF

35、, param=NULL) #将数据以交叉检验划分成K=10份,9份训练,一份测试 #given表示用来进行模型评测的项目数量,(实际数据中只能取1)info_es - evaluationScheme(infoh, method=cross-validation,k=10, given=1) #采用算法列表对数据进行模型预测与评价,其推荐值N取3, 5, 10, 15, 20,30info_results - evaluate(info_es,algorithms,n=c(3,5,10, 15, 20,30) #画出评价结果的图形plot(info_results, xlim = c(0,0.9),ylim = c(0,0.1), prec/rec,legend=topleft,cex=0.67)22材料a

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!