认识个性化推荐系统从推荐算法到产品冷启动
《认识个性化推荐系统从推荐算法到产品冷启动》由会员分享,可在线阅读,更多相关《认识个性化推荐系统从推荐算法到产品冷启动(8页珍藏版)》请在装配图网上搜索。
1、细心整理相识特性化引荐系统从引荐算法到产品冷启动 为什么须要特性化引荐?科技进步带来的是更大程度地提高效率和生产力已经是无可争辩的事实。随着时代变迁的广告业,从播送、电视业广告的辉煌,到互联网门户时代的banner广告和狂轰乱炸的edm,再到了搜寻引擎和移动互联网时代的引荐位广告,随着人们的数据可被记录并且计算,也随之产生了计算广告学这门新兴学科。从广撒网的广告形式到精准地捕获到用户的需求,并且呈现给用户更加恰当的广告,给互联网公司带来了巨额的广告收入,这中间引荐系统功不行没。早期的门户网站充溢着banner广告,并没有精准触达用户电商的引荐系统那么帮助电商网站大大提高销售额,亚马逊通过特性化
2、引荐系统能够提高35%的销售量。在2016年,引荐算法能够为Netflix节约每年10亿美元。让其中的冷门内容也能够发挥作用,须要依靠基于用户习惯数据的特性化引荐系统利用特性化引荐,相比简洁展示最受欢送清单,观看率提升3-4倍。而近两年兴起的内容分发类产品更是基于内容引荐的特性化引荐收获了大量用户的留意力。今日头条、一点资讯,或是百度的feed流产品,已经成为了除了微信之外的“时间杀手”。让用户情愿沉溺其中的缘由,除了产品内容本身的建立,也有来自于特性化引荐的重要力气。引荐系统的核心思想:集群才智凯文凯利曾经在失控中曾经说到蜂群的故事:蜜蜂看到一条信息:“去那儿,那是个好地方”。它们去看过之后
3、回来舞蹈说,“是的,真是个好地方。” 通过这种重复强调,所属意的地点吸引了更多的探访者,由此又有更多的探访者参与进来。遵照收益递增的法那么,得票越多,反对越少。渐渐地,以滚雪球的方式形成一个大的群舞,成为舞曲终章的主宰,最大的蜂群获胜。凯文凯利用超级有机体可以来形容蜂群。同样,这个词也可以来形容整个互联网上的人群。他们在网络上留下的痕迹可以说是无意识的,但是也带有了某种“集群的意识”。扯远了,还是来看看互联网集群才智的例子:Wikipedia-用户奉献内容:Wikipedia是一件集群才智的典型产物,它完全由用户来维护,因为每一篇文章都会有大量的用户去进展修改,所以最终的结果很少出现问题,而那
4、些恶意的操作行为也会因为有海量的用户的维护而被尽快地修复。Google-利用海量数据进展判定:Google的Pagerank算法的核心思想是通过其他网页对当前网页的引用数来判定网页的等级,这种算法须要通过海量的用户数据来进展。协同过滤说到特性化引荐最常用的设计思想,不得不说说协同过滤,它一种在做特性化引荐时候的方法论。因为假如仅仅遵照单一的热门引荐,网络的马太效应(指强者愈强、弱者愈弱的现象)就会明显;且长尾中物品较难被用户发觉,造成了资源奢侈。而协同过滤问题恰恰解决了用户的特性化需求用户更情愿翻开自己感爱好或者熟悉的内容,使得长尾上的物品有了被展示和消费的可能性,也使得马太效应相对弱化。协同
5、过滤包括两种类型:1.Item-CF(基于物品的协同过滤):小明在网站上看了超人归来的电影,系统就会引荐和这部电影的相像的电影,比方蜘蛛侠2给小明。这是基于电影之间的相像性做出的引荐。(留意:两部电影时间的是否相像是由大量用户是否同时都看了这两部电影得到的。假如大量用户看了A电影,同时也看了B电影,即可认为这两部的电影是相像的,所以Item-CF照旧是基于用户行为的。)腾讯视频中,当观看超人归来时系统推送的电影2.User-CF(基于用户的协同过滤:小明在购物网站上买了一副耳机,系统中会找出和小明相像的“近邻好友”他们除了买耳机之外,还买了什么。假如和小明相像的“近邻”小华还买过音箱,而这件东
6、西小明还没买过,系统就会给小明引荐音箱。这是基于用户之间的相像性做出的引荐。注:这里的CF=collaborative filtering而这两种类型的协同过滤都是要基于用户行为来进展。而除了协同过滤之外,还有基于内容的引荐、基于学问的引荐、混合引荐等方式。物以类聚,人以群分。这句话很好地说明白协同过滤这种方法的思想。亚马逊网站上对图书的引荐 -基于Item-CF前一阵参与pmcaff的人工智能产品经理的活动,主讲人香港中文高校的汤晓鸥教授目前人工智能视觉方面的顶级专家说,目前机器视觉领域可以通过社交网络照片或者个人相册中的图片的学习,可以做到预料个人征信。和谁的合影,在什么地方拍照都成为了机
7、器预料个人特征的判定因素。这也是利用了“人以群分的常识,只是加上了高大上的机器视觉技术而已。机器学习和特性化引荐的关系什么是机器学习?集群才智编程这本书里是这么说明的:机器学习是人工智能领域中和算法相关的一个子域,它允许计算机不断地进展学习。大多数状况下,这相当于将一组数据传递给算法,并由算法推断出和这些数据的属性相关的信息借助这些信息,算法就能够预料出将来有可能出现的其他数据。这种预料是完全有可能的,因为几乎全部非随机数据中,都会包含这样或那样的“模式patterns”,这些模式的存在使机器得以据此进展归纳。为了实现归纳,机器会利用它所认定的出现数据中的重要特征对数据进展“训练”,并借此得到
8、一个模型。机器学习本质上是从数据中构建模型来进展“数据预料”或者“下确定”的事儿,而特性化引荐系统的本质,也是预料用户可能感爱好的事儿。机器学习可以用来做特性化引荐系统,也可以做其他类型的预料,比方金融欺诈侦测、安防、股票市场分析、垃圾email过滤等等。这张图很好地说明白机器学习的工作过程。机器学习分为无监视学习和有监视学习两种,也有延长出增加学习和半监视学习的方法。Hadoop和Mahout那些引荐算法这里不再赘述,但是大数据技术方面的根底学问,作为小白还是须要要有所了解。众所周知,引荐系统的数据处理往往是海量的,所以处理这些数据的时候要用到像Hadoop这样的分布式处理软件框架。Hado
9、op是一个能够对大量数据进展分布式处理的软件框架。 Hadoop 以一种牢靠、高效、可伸缩的方式进展数据处理。Hadoop是一个生造出来的词,而Mahout中文意思就是象夫,可以看出,假如把大数据比作一只大象的话,那mahout就是就是指挥大数据进展运算的指挥官。Mahout 是 Apache Software FoundationASF 旗下的一个开源工程,供应一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加便利快捷地创立智能应用程序。其目的也和其他的开源工程一样,Mahout幸免了在机器学习算法上重复造轮子。引荐系统的数据来源众所周知,对引荐系统的特性化引荐算法须要运用来自用户
10、的数据,那么这些数据都是来自于哪里,为我们所用呢?基于用户行为数据:举个好玩的例子:通过GPS信号,可以测得手机速度以及位置,当用户的手机在早上8点由高速变成低速,可以判定是从地铁出来,就可以向他引荐旁边的麦当劳早餐实惠券了。另外,运营商是可以得到用户手机访问过的网页数据的,通过文本挖掘,可以了解用户的偏好,如看过很多足球类的文章,可以了解用户为宠爱足球的用户,而宠爱足球的用户很大的可能性是男性,那么可以多推送一些相关的体育新闻内容,甚至男性用品比方剃须刀广告给他。基于社交网络数据:通过用户的社交网络数据可以基于好友关系,引荐挚友给用户。当小红和小明同时有10个挚友,那就说明他们在一个挚友圈子
11、。他们共同好友越多,就更有可能在两个人之间做相互引荐。基于上下文的数据:上下文的数据又可以分为两种,时间上下文和地点上下文。举一个栗子,在时间上下文的状况下,某外卖app须要依据早中晚人们的用餐习惯来给用户推送不一样的食物或者实惠券,这样引荐不同的食物更符合用户的习惯。另外依据地点的上下文说的是,假如你在办公室用某外卖app点一份外卖,那么引荐给你的外卖餐厅是要离你较近的,而不是推送十公里以外的餐厅。基于内容的引荐和热度算法我们要知道特性化引荐一般会有两种通用的方法,包括基于内容的特性化引荐,和基于用户行为的特性化引荐。基于用户行为的引荐,会有基于物品的协同过滤Item-CF)和基于用户的协同
12、过滤(User-CF)两种。而协同过滤往往都是要建立在大量的用户行为数据的根底上,在产品发布之初,没有那么大量的数据。所以这个时候就要依靠基于内容的引荐或者热度算法。基于内容的引荐一般来说,基于内容的引荐的意思是,会在产品初期打造阶段引入专家的学问来建立起商品的信息学问库,建立商品之间的相关度。比方,汽车之家的全部的车型,包括了汽车的各种性能参数;电商网站中的女装也包括了各种规格。在内容的引荐过程中,只须要利用用户当时的上下文状况:例如用户正在看一个20万左右的群众轿车,系统就会依据这辆车的性能参数,来找到另外几辆和这辆车相像的车来引荐给用户。一般来说,建立这样的数据库须要专业人士、编辑等通过
13、手动完成,有必需的工作量,但对于冷启动阶段的产品来说,是一个相对有效的方法。汽车之家网站在用户查看一辆车的同时引荐和其相像的车另外一种状况是纯文本的内容没有明确的参数特征,在这种状况下,须要通过文本分析技术来自动提取文本的关键词(通过自然语言技术的进展分词,通过数据挖掘来找到文本和文本之间的联系和相像性。热度算法左:微博 右:今日头条另外,由于各种社会热点话题普遍是人们关注较高的,以及由于在产品开展初期,没有收集到大量用户数据的状况下,“热度算法”也是一种惯常运用的方式。“热度算法“即将热点的内容优先引荐给用户。这里值得留意的是,热点不会恒久是热点,而是具有时效性的。所以发布初期用热度算法实现
14、冷启动,积累了必需量级以后,才能渐渐开展特性化引荐算法。而热度算法在运用时也须要考虑到如何幸免马太效应:毋庸置疑的是,在滚雪球的效应之下,互联网民的消费&观点&行为会趋同,就像前一阵战狼2的热映一样,史无前例的票房成果完全取决于遮天蔽日式的传播,而群体将会成为乌合之众。引荐产品的冷启动每个有引荐功能的产品都会遇到冷启动cold start的问题,也是很多创业公司遇到的较为麻烦的问题。在早期团队资金有限的状况下,如何更好地提升用户体验?假如给用户的引荐一模一样、没有亮点,会使得用户在一起先就对产品失去了爱好,放弃运用。所以冷启动的问题须要上线新产品谨慎地对待和探究。在产品刚刚上线
15、,新用户到来的时候,假如没有他在应用上的行为数据,也无法预料其爱好。另外,当新商品上架也会遇到冷启动的问题,没有收集到任何一个用户对其阅读,点击或者购置的行为,也无从判定将商品如何进展引荐。所以在冷启动的时候要同时考虑用户的冷启动和物品的冷启动。我总结了并延长了项亮在引荐系统实践中的一些方法,可以参考:a.供应热门内容,类似刚刚所介绍的热度算法,将热门的内容优先推给用户。b.利用用户注册信息,可以利用人口统计学的一些特征,如性别、国籍、学历、居住地来预料用户的偏好,当然在极度强调用户体验的今日,注册过程的过于繁琐也会影响到用户的转化率,所以另外一种方式更加简洁且有效,即利用用户社交网络账号授权登陆,导入社交网站上的好友信息或者一些行为数据。c.在用户登录时收集对物品的反应,了解用户爱好,推送相像的物品。d.在一起先引入专家学问,建立学问库、物品相关度表;或者通过自然语言处理来进展文本的数据挖掘。e.通过用户在时间和地点的上下文来进展实时的预料。
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 化工过程开发导论教学课件
- PXGL05SSGF下的运营管理课件
- (部编版教材)三年级上册《金色的草地》经典ppt课件
- 第二课-展示自己的职业风采课件
- (新课标)高三化学一轮总复习第6章化学反应与能量变化同步测试卷ppt课件
- (新课标)高考数学大一轮复习第一章集合与常用逻辑用语1.1集合ppt课件文
- 第五讲法家思想现代解读课件
- 第二章-人工晶体的生长2122课件
- 第三章学前儿童身体保健教育分析课件
- (部编版)祖父的园子优秀ppt课件
- 第七章老年心理学-课件
- 趣味竞赛—成语猜猜看82张课件
- 化工过程开发与设计-绪论-第1章课件
- 路基路面弯沉试验(贝克曼梁)课件
- (部编版)小学语文一级上册《项链》教学ppt课件