内容无关的信息检索模型.ppt

上传人：sh****n

文档编号：12816316

上传时间：2020-05-26

格式：PPT

页数：27

大小：234KB

《内容无关的信息检索模型.ppt》由会员分享，可在线阅读，更多相关《内容无关的信息检索模型.ppt（27页珍藏版）》请在装配图网上搜索。

内容无关的信息检索模型,杜小勇2008-03-13,基于文本内容的检索模型布尔模型向量空间模型概率模型统计语言模型语义网络模型,与内容无关的其他检索模型基于协同的模型基于链接分析的模型基于关联的模型通常与基于内容的模型一起使用,CollaborativeRecommendation,rajdenotesthescoreofitemjratedbyanactiveusera.Ifuserahadnotrateditemj,raj=0.m-totalnumberofusers,n-totalnumberofitems.,协同推荐模型,Foragivenuser-aanddocument-j,Predicatepaj=?isthenumberofuserswhoaresimilartouseraandhaverateditemj.w(a,i):Theweightofthesimilaritybetweenuseraanduseri.kisanormalizingfactorsuchthattheabsolutevaluesoftheweightssumtounity.,算法主要的问题,冷启动(coldstar)稀疏性(sparse)高维性(highdimension),基于分类的协同过滤推荐,基本思想：（1）对矩阵进行划分划分依据资源的语义分类（2）根据划分后的子矩阵进行协同过滤（3）生成预测结果,基于分类的协同过滤推荐,基本思想：（1）把每一项资源归到一个或几个类别中；（2）用户对资源评价矩阵进行分解，,（3）对进行裁减，去掉对该类资源没有打分的用户,基于分类的协同过滤算法(续),（4）根据计算用户在某一类别中的相似度，即得到一个用户的最邻近邻居们。（5）计算用户对特定类别中的资源感兴趣度（6）综合用户在多个类别中的感兴趣程度，得到最终推荐结果。,基于聚类的协同过滤算法,基本思想：（1）对矩阵进行划分划分根据稀疏矩阵聚类、KMeans等聚类算法（2）根据划分后的子矩阵进行协同过滤（3）生成预测结果,基于矩阵聚类的协同过滤,基于矩阵聚类的协同过滤,基本思想：（1）把每一项资源归到一个或多个子矩阵中，每个用户被划分到一个或多个子矩阵中；,基于聚类的协同过滤算法(续),（2）根据计算用户在某一类别中的相似度，即得到一个用户的最邻近邻居们。（3）计算用户对特定类别中的资源感兴趣度（4）综合用户在多个类别中的感兴趣程度，得到最终推荐结果。,与内容无关的其他检索模型基于协同的模型基于链接分析的模型基于关联的模型通常与基于内容的模型一起使用,链接分析模型,对于超文本（例如WWW上的网页），超链结构是个非常丰富和重要的资源，如果能够充分利用的话，可以极大地提高检索结果的质量。SergeyBrin和LarryPage在1998年提出了PageRank算法J.Kleinberg于1998年提出了HITS算法其它一些学者也相继提出了另外的链接分析算法，如SALSA，PHITS，Bayesian等算法。,PageRanking算法,BrinS,PageLTheanatomyofalarge-scalehypertextualwebsearchengine.WWW98基本思想：以下三条启发式规则：如果一个页面被多次引用，那么这个页面很可能是重要的。如果一个页面被重要的页面引用，那么这个页面很可能是重要的。一个页面的重要性被均分并传递到它所引用的页面。,PageRanking,Citationgraph(linkgraph)ofthewebAwebpages“PageRank”:PR(A)=(1-d)+d(PR(T1)/C(T1)+PR(Tn)/C(Tn)PageAhaspagesT1,Tnwhichpointtoit(i.e.arecitations)0d1isadampingfactor(d=0.85)C(A)isthenumberoflinksgoingoutofA,HITS算法,J.Kleinberg.Authoritativesourcesinahyperlinkedenvironment.InProc.NinthAnn.ACM-SIAMSymp.DiscreteAlgorithms,pages668-677,ACMPress,NewYork,1998Hub页面：指向权威页面的页面，例如目录页面等。Authority页面：被很多页面指向的页面,HITS算法,Step1:构造子图S查询结果页面R（前n个）R中每一个页面所指向的页面指向R中页面的页面（可能要限制数量）Step2:迭代计算页面的h值和a值每一个页面的h(p)=1,a(p)=1定义两个操作：I:a(p)=(q,p)Eh(q)O:h(p)=(p,q)Ea(q),HITS算法（续）,Step3：重复Step2k次（可以证明上述迭代可以收敛到一个不动点，但是，如何确定一个k值是一个问题）输出top-m个hub页面和权威页面,与内容无关的其他检索模型基于协同的模型基于链接分析的模型基于关联的模型通常与基于内容的模型一起使用,SimRank算法,基本思想：同一个类型下的两个对象,如果经常连接到相同的其他对象，那么这两个对象的相似性应该很高。,Simrank算法,Similaritybtw.a&bdenotedby:ifa=b,s(a,b)=1,s(a,a)=s(b,b)=1otherwise:Ciscalledas“confidencelevel”or“decayfactor”.aconstantbtw.0&1if|I(a)|or|I(b)|is0,s(a,b)=0symmetric:s(a,b)=s(b,a)Similaritybtw.a&bistheaveragesimilaritybtw.in-neighborsofaandin-neighborsofb,Simrank算法-文本相似度计算,1.利用文章的相互之间的引用关系计算文本的相似度。-两个文档的引文相同，那么这两个文档的相似性很高。2.利用文章的内部信息和外部信息共同的计算文本的相似度。-文档外部信息（作者，发表会议）-文档内部信息（摘要，关键字，内容）思想：两个文档有共同的作者，共同的关键词，发表到共同的会议上，文章内容中包含共同的词那么这两个文档的相似度很高。,Simrank算法计算改进工作,Linkclus算法：1）2/8原则：图中两个点的相似性的计算只由图中的部分点来决定，并不是由图中的所有的点来决定。由这个核心的想法，将SimRank的全局计算转化到一个局部的树形的计算中来，大大提高了效率。,参考文献,LinkMing:1LiseGetoor,ChristopherP.Diehl,LinkMining:ASurvey,SIGKDD,20052TedE.Senator*LinkMiningApplications:ProgressandChallenges,SIGKDD,20053LiseGetoor,Linkmining:anewdataminingchallenge,SIGKDD,2003SimilarityCompute:1GlenJeh,JenniferWidom,SimRank:AMeasureofStructural-ContextSimilarity,SIGKDD,20022JimengSun,HuimingQu,DeepayanChakrabarti,ChristosFaloutsosRelevanceSearchandAnomalyDetectioninBipartiteGraphs,SIGKDD,20053XiaoxinYin,JiaweiHan,PhilipS.Yu,LinkClus:EfficientClusteringviaHeterogeneousSemanticLinks,VLDB,20064XiaoxinYin,JiaweiHanDistinguishingObjectswithIdenticalNamesinRelationalDatabases,ICDE,20075ZhenjiangLin,IrwinKing,andMichaelR.Lyu,PageSim:ANovelLink-basedSimilarityMeasurefortheWorldWideWeb,WWW,2006,END,

下载提示(请认真阅读)

1.请仔细阅读文档，确保文档完整性，对于不预览、不比对内容而直接下载带来的问题本站不予受理。
2.下载的文档，不会出现我们的网址水印。
3、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

文档包含非法信息？点此举报后获取现金奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

9.9 积分

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 内容无关信息检索模型

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

装配图网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：内容无关的信息检索模型.ppt
链接地址：https://www.zhuangpeitu.com/p-12816316.html