实例解析关键词聚类的方法策略

上传人:daj****de2 文档编号:156513442 上传时间:2022-09-26 格式:DOCX 页数:7 大小:243.35KB
收藏 版权申诉 举报 下载
实例解析关键词聚类的方法策略_第1页
第1页 / 共7页
实例解析关键词聚类的方法策略_第2页
第2页 / 共7页
实例解析关键词聚类的方法策略_第3页
第3页 / 共7页
资源描述:

《实例解析关键词聚类的方法策略》由会员分享,可在线阅读,更多相关《实例解析关键词聚类的方法策略(7页珍藏版)》请在装配图网上搜索。

1、实例解析关键词聚类的方法策略收藏到:1时间:2014-06-05文章来源:马海祥博客 访问次数:388最近,马海祥接手了一个大型的网站,首先要做的就的对这个网站的流量来源进行分 析,这其中最繁琐的莫过于对来源关键词的聚类整合了。所谓关键词聚类就是以领域特征明显的词和短语作为聚类对象,在分类系统的大规模 层级分类语料库中,利用独创的文本分类的特征提取算法进行词语的领域聚类,通过控制词 语频率的影响,分别获取领域通用词和领域专类词。所以,要想做好这类做关键词的聚类,就一定要有一些基础信息,基础数据作为背景。在此,我就借助马海祥博客的平台跟大家实例解析关键词聚类的方法策略:1、百度商业词聚类模型现在

2、对于一些医疗SEO来说看行业新闻,大家经常讨论一个话题就是百度医疗行业的 收入贡献比是多少?,其实,爆个大料给大家,在2005年甚至2006年之前,百度自己都 不掌握这类数据。当时百度有一个简单的客户分类,是客服提交的,然后我们看了一下消费的行业分布, 结果显示超过50%属于其他分类,这个结果基本上就没法看了。然后我就琢磨,用商业词能不能直接聚类为行业,当时我在产品部门,合作反欺诈点 击的工程师是张怀亭,这是个算法高手,他当年的毕业论文就是关联规则和聚类算法,我就 去请教他,他说了一堆,我大部分没听懂,但大概要点知道了一些,然后找他要了论文看了 看,也没太看明白,凭借自己粗浅的理解我就动手了,

3、然后这个还真做成了。我的出发点就是假设客户本身具有行业属性(如果这个假设不存在,那就没辙了),我认 为每个客户提交的关键词,彼此是有关联的。某两个关键词如果同时被不同的客户提交淇 关联性就会随之增加,这个是最基本的一个定义,叫做共同推举数,也是最容易算的一个值。但是仅仅依赖于共同推举数有一个问题,就是会导致很多词都和热门词关联,这是不 合理的,我记得当时好像是某网上书城的推荐购买那一栏,明显都是热门书籍,似乎也是基 于共同推举数做的关联。问题1:A和B有50个共同推举,A和C有30个共同推举,但是B这个词是热门词, 共有2000个客户提交;而C是冷门词,只有50个客户提交,请问A和B的关联度高

4、还是 A和C的关联度高?问题2 :客户1提交了 10000个词(类似阿里真的是这么提交的);客户2提交了 20 个词,客户1所提交的10000个词的彼此关联度和客户2之间提交的是否一致?考虑这两个问题,就需要做权值调整了,然后再计算词与词的关联值。那么,权值该 怎么定呢?对于这个权值的设定做了一个程序,实现程序只用了不到一个下午,然后跑一遍程序 大约1个小时到2个小时(那时候百度的商业词还没那么多,客户也没现在呢么多,我的 程序其实效率不够好)。然后我做了一个web展示界面,就是任意输入一个词,列出其关联词及关联值,目测 坏案例,分析参数的问题,然后修改参数,再跑一遍。跑了 n多遍,大约两三天

5、时间,觉 得结果差不多了,词与词的关联建立起来了,考虑第二步,聚类。(当时认识了很多奇葩的 商业词,大开眼界,对互联网行业认识彻底改观,比如白小姐,黄大仙.,这个领域就不 再说了)马海祥觉得聚类的做法就极为简单了,把每个行业的代表词(与很多词关联的)抽取出 来,当作核心词,然后基于词的关联,延展一级关联、二级关联、三级关联,比如A与B 关联,B月C关联,C与D关联,计算彼此权值衰减,得出A与D的关联。尽可能把所有 词聚合到核心词上,作成行业词表。最开始核心词我从库里挑与其他词关联度较高的有20多个,然后多级权值衰减也是假 设的,然后跑一遍,看两个指标,第一、覆盖率是多少?第二、准确率如何?选取

6、每个行业 关联度最低的词(坏案例的密度较高,有些词会同时被两个行业核心词关联,但权值计算会 出问题,导致被并入错误的行业)去看,选择没有被关联上的词去看,分析权值的问题,然 后修改衰减参数,增加核心词。这个程序我也是写了一个下午,但是调试权值和增加核心词, 做了一个礼拜。然后,百度商业分析部终于可以推出,基于行业的收入报表。我自豪的说一句,百度 做收入行业分布,是基于我的关键词分类算法开始的,当然,今天他们鸟枪换炮了,我的算 法效率不够(初期还行,到更大的词规模和更多客户就不行了),覆盖率和准确度并不十分 完美(坏案例还是一直存在的,不过尽可能控制在消费总额的10%内,对热门词比较准, 但对一

7、些长尾控制不住)。不过、我是在产品部门干的这个活,呵呵。后来,这个模型还用于智能起价,下面马海祥再说一下关于智能起价的一些事。智能起价其实是百度一个失败的商业尝试,对业务的伤害非常大,但是初期的设计理 念并没有大问题,百度当时基于关键词的竞价(当时的竞价模式非常简单,别跟我说现在百 度的竞价模式不这样,我明白),对商业价值的挖掘是有缺陷的,比如一些超级热门词,3 毛一个点击也是卖不掉的(比如电影,小游戏)。是不是可以便宜点卖呢?对一些司非长尾关键 词但是价值很高的词(具体可查看马海祥博客的什么是长尾关键词相关介绍),因为发 现的客户少,所以起价很低,而其商业价值并不弱,比如最新SEO技术的报价

8、这样 的长尾词可能参与竞价的只有一两个客户,但是其商业价值不会低于“SEO技术”这样的 高价词。所以,智能起价真正的目的,是给热门非商业词降价,给冷门长尾商业词提价。那么我就提出一个观点,关键词的起价应与他关联词的平均点击价格相关。然后他们 拿这个模型去跟领导讲,很快就通过了。(牢骚一句,赵某童鞋去讲的,被领导问毛了,就 说算法是技术部门的,他也不是很清楚,他去讲的时候明明是我提供的原型!不过后来技术 部门又做了一版,但那是后话了)智能起价模型失败的原因,有两个原因:(1)、他们上的时候为了提高对非商业词的覆盖率,硬把关键词包含规则加上去了。 导致了一些坏案例。(比如平板,平板电脑,并不是一个

9、行业)。当时效果很不好,领导很不 爽,批评我的坏案例太多,列了一堆,我挨个去查,所列的没有一个是我算法算出来的,都 是词包含包进去的。其实这个问题还不算严重,词包含固然有坏案例,但是影响面极为有限。(2)、就是领导太急迫了,这个事情我的建议是,起价权值低一点(通过算法计算每 个词关联平均价格,然后关联平均价格*起价参数二该词起价,这是基本公式,起价参数全 凭个人判断),看效果慢慢调整,结果领导一上来设的相当高,所以,客户极大不爽,各种 擦屁股持续了几个月,百度那个季度实在可怜。凤巢之后,智能起价终于寿终正寝。凤巢的方案更完美,更综合,这是必须承认的。2、搜索词/指数词的聚类当然,除了以上所述的

10、,也可以基于搜索网民的提交来计算关联度,但是首先,网民的搜索行为,并不如客户提交商业词行为那样具有分类属性。其次,我当时的处理能力也搞 不定这样的数据规模的关联计算。那么基于什么呢?基于关键词+搜索量。w而稣这事又是怀亭帮忙,当时他帮我做所有搜索记录的整理,包括汇总和反刷处理,除了 一些ip,客户端标记清理外,最重要的还有一个规则,是基于渠道分布和客户端分布规则。正常的搜索词,来自于不同渠道的比例应该是遵循一个合理分布比例的,所谓渠道包 括百度官网,hao123,其他联盟渠道等等,如果严重不遵守这个比例,基本就是刷指数了, 但这个规则没有应用到百度指数上,至少当时没应用到,原因似乎是这样的,当

11、时几乎所有榜单上的热门女星,似乎都有经纪公司或粉丝团的刷榜行为。所以当时我手里有百度所有搜 索词的搜索数据(清理掉刷指数的数据),而且每日更新。那么怎么分类呢?如果做全分类,我真做不到,但是热门词是可以做的。这里有一个 要点,就是每个热门关键词,都不是孤立存在的。而这些热门词的相关词(基于词包含)里, 会携带一些表明其行业属性的词根,然后可以回溯这个热门词的行业属性。举个例,比如某一个热门游戏,魔兽,会有大量诸如魔兽攻略,魔兽新服,魔兽道具, 魔兽外挂等等相关词。通过这些相关词的词根(可以对词根标记分类属性)回溯原词,以及原 词所有相关词的分类。比如电视剧,常见词根有第*集,最新集,一个小说,

12、常见词根 有第*章,最新章节等。当然,还有一个情况,有些词是多含义的,比较典型如苹果(IT产品,电影,水果)。 武林外传(电视剧,游戏)等。通过词根的分析,并基于不同词根下的搜索量加权,得到该词 的搜索属性,偏向哪个领域,或各个领域的比例,是的,不是很精确,但是还是有一定价值 的。马海祥建议的实现方法就是,针对每个未分类的热门词,去遍历包含他的所有词,然 后基于预先定义的分类词根去套,对包含每个分类词根的长尾词根据搜索量加权,汇总得到 该热门词的分类属性,以及覆盖包含该热门词的所有长尾词的分类属性(具体可查看马海祥 博客的如何组合和挖掘长尾关键词相关介绍)。这个算法思路,不适合对长尾词挖掘(含

13、有行业属性词根的长尾词可以覆盖,但是毕 竟覆盖率不够),但是对百度热榜可以有很好的帮助,对热门词的挖掘和自动分类还是有一 定把握的,当时不少人抱怨我说百度热榜更新不及时,一些新游戏都很火了也进不了热榜, 我就拉着百度热榜的产品经理和技术分享过,还提供过原型代码,然后也没有然后了。至少当时,我能不断看到网民搜索行为的分类比例(百度长尾词太多,我的模型覆盖 搜索量只有50%左右),以及变化趋势,比如眼看着视频类的搜索比例快速增长。通过关键词聚类分析,可将待选的关键词分成同质的几类小组,在同一组内选择实验 单位和非实验单位,这样便保证了这两个单位之间具有了一定的可比性。进而就可提高网站 关键词的扩展及分类展示了。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!