信息检索专业内容

上传人:无*** 文档编号:158900978 上传时间:2022-10-07 格式:PPT 页数:77 大小:1,015.31KB
收藏 版权申诉 举报 下载
信息检索专业内容_第1页
第1页 / 共77页
信息检索专业内容_第2页
第2页 / 共77页
信息检索专业内容_第3页
第3页 / 共77页
资源描述:

《信息检索专业内容》由会员分享,可在线阅读,更多相关《信息检索专业内容(77页珍藏版)》请在装配图网上搜索。

1、Introduction to Information Retrieval 现代信息检索现代信息检索中国科学院大学2017年秋季课程现代信息检索 更新时间:Modern Information Retrieval*改编自”An introduction to Information retrieval”网上公开的课件,地址 http:/nlp.stanford.edu/IR-book/第6讲 文档评分、词项权重计算及向量空间模型Scoring,Term Weighting&Vector Space Model2017/9/19提纲 上一讲回顾 排序式检索 词项频率 tf-idf权重计算 向量空

2、间模型2高等教育提纲 上一讲回顾 排序式检索 词项频率 tf-idf权重计算 向量空间模型3高等教育 现代信息检索Heaps定律词典大小的估计 词汇表大小M 是文档集规模T的一个函数 M=kTb 图中通过最小二乘法拟合出的直线方程为:log10M=0.49 log10T+1.64 于是有:M=101.64T0.49k=101.64 44 b=0.494高等教育现代信息检索 5Zipf定律-倒排记录表大小的估计反映词项的分布情况cfi*ic拟合度不是太高,但是今本反映词项的分布规律:高频词少,低频词多。5高等教育现代信息检索 6词典压缩-将整部词典看成单一字符串6高等教育现代信息检索 7词典压缩

3、-单一字符串方式下按块存储7高等教育 现代信息检索词典压缩-前端编码(Front coding)每个块当中(下例k=4),会有公共前缀 8 a u t o m a t a 8 a u t o m a t e 9 a u t o m a t i c 10 a u t o m a t i o n 可以采用前端编码方式继续压缩 8 a u t o m a t a 1 e 2 i c 3 i o n8高等教育现代信息检索 9倒排记录表压缩-对间隔编码9高等教育现代信息检索 10倒排记录表压缩-可变字节(VB)码 设定一个专用位(高位)c作为延续位(continuation bit)如果间隔表示少于7比

4、特,那么c 置 1,将间隔编入一个字节的后7位中 否则:将低7位放入当前字节中,并将c 置 0,剩下的位数采用同样的方法进行处理,最后一个字节的c置1(表示结束)比如,257=1 00000001=0000010 0000001 0000010 1000001 被很多商用/研究系统所采用 变长编码及对齐敏感性(指匹配时按字节对齐还是按照位对齐)的简单且不错的混合产物10高等教育现代信息检索 11倒排记录表压缩-?编码 将整数G 表示成长度(length)和偏移(offset)两部分 偏移对应G的二进制编码,只不过将首部的1去掉 例如 13 1101 101=偏移 长度部分给出的是偏移的位数 比

5、如G=13(偏移为 101),长度部分为 3 长度部分采用一元编码:1110.G的?编码就是将长度部分和偏移部分两者联接起来得到的结果。11高等教育现代信息检索 12Reuters RCV1索引压缩总表12高等教育现代信息检索 13本讲内容 对搜索结果排序(Ranking):为什么排序相当重要?词项频率(Term Frequency,TF):排序中的重要因子 逆文档频率(Inverse Document Frequency,IDF):另一个重要因子 Tf-idf 权重计算方法:最出名的经典排序方法 向量空间模型(Vector space model):信息检索中最重要的形式化模型之一(其他模型

6、还包括布尔模型、概率模型、统计语言建模模型等)13高等教育提纲 上一讲回顾 排序式检索 词项频率 tf-idf权重计算 向量空间模型14高等教育现代信息检索 15布尔检索 迄今为止,我们主要关注的是布尔检索,即文档(与查询)要么匹配要么不匹配 布尔检索的优点:对自身需求和文档集性质非常了解的专家而言,布尔查询是不错的选择 对应用开发来说也非常简单,很容易就可以返回1000多条结果 布尔检索的不足:对大多数用户来说不方便 大部分用户不能撰写布尔查询或者他们认为需要大量训练才能撰写出合适的布尔查询 大部分用户不愿意逐条浏览1000多条结果,特别是对Web搜索更是如此15高等教育现代信息检索 16布

7、尔检索的其他不足:结果过少或者过多 布尔查询常常会导致过少(=0)或者过多(1000)的结果 例子:查询 1(布尔与操作):standard user dlink 650 200,000 个结果 太多 查询2(布尔与操作):standard user dlink 650 no card found 0 个结果 太少 结论:在布尔检索中,需要大量技巧来生成一个可以获得合适规模结果的查询16高等教育现代信息检索 17排序式检索(Ranked retrieval)排序式检索会对查询和文档的匹配程度进行排序,即给出一个查询和文档匹配评分 排序式检索可以避免产生过多或者过少的结果 可以通过排序技术来避免

8、大规模返回结果,比如只需要显示前10条结果,这样不会让用户感觉到信息太多 用户满意的前提:排序算法真的有效,即相关度大的文档结果会排在相关度小的文档结果之前17高等教育现代信息检索 18排序式检索中的评分技术 我们希望,在同一查询下,文档集中相关度高的文档排名高于相关度低的文档 如何实现?通常做法是对每个查询-文档对赋一个0,1之间的分值 该分值度量了文档和查询的匹配程度18高等教育现代信息检索 19第一种方法:Jaccard系数 计算两个集合重合度的常用方法 令 A 和 B 为两个集合 Jaccard系数的计算方法:JACCARD(A,A)=1 JACCARD(A,B)=0 如果 A B=0

9、 A 和 B 不一定要同样大小 Jaccard 系数会给出一个0到1之间的值AB19高等教育现代信息检索 20Jaccard系数的计算样例 查询“ides of March”3月15日(朱利乌斯恺撒的殉难日)文档“Caesar died in March”JACCARD(q,d)=1/620高等教育现代信息检索 21课堂练习 计算下列查询-文档之间的Jaccard系数 q:information on cars d1:“all youve ever wanted to know about cars”q:information on cars d2:“information on trucks

10、,information on planes,information on trains”q:red cars and red trucks d3:“cops stop red cars more often”21高等教育现代信息检索 22Jaccard系数的不足 不考虑词项频率,即词项在文档中的出现次数(后面会定义)一般而言,罕见词比高频词的信息量更大,Jaccard系数没有考虑这个信息 没有仔细考虑文档的长度因素 本讲义后面,我们将不考虑使用Jaccard系数来进行查询和文档的评分计算 提醒:在第19讲Web网页查重,我们还会介绍大规模网页下的Jaccard系数计算问题(网页和网页之间的相

11、似度)22高等教育 现代信息检索Paul Jaccard(1868-1944)瑞士植物学家,ETH教授 1894年毕业于苏黎世联邦理工学院ETH(出过包括爱因斯坦在内的21位诺贝尔奖得主)1901年提出Jaccard Index即Jaccard Coefficient(Jaccard系数)概念23高等教育提纲 上一讲回顾 排序式检索 词项频率 tf-idf权重计算 向量空间模型24高等教育现代信息检索 25查询-文档匹配评分计算 如何计算查询-文档的匹配得分?先从单词项查询(查询只包含一个词项)开始 若该词项不出现在文档当中,该文档得分应该为0 该词项在文档中出现越多,则得分越高 这就是所谓词

12、项频率词项频率(term frequency,简称tf)评分 后面我们将给出多种评分的方法25高等教育现代信息检索 26二值关联矩阵每篇文档可以看成是一个二值的向量 0,1|V|Anthony and CleopatraJulius Caesar The TempestHamlet Othello Macbeth.ANTHONYBRUTUS CAESARCALPURNIACLEOPATRAMERCYWORSER.11101111111000000001101100110010011101001026高等教育现代信息检索 27非二值关联矩阵(词项频率)每篇文档可以表示成一个词频向量 N|V|An

13、thony and CleopatraJulius Caesar The TempestHamlet Othello Macbeth.ANTHONYBRUTUS CAESARCALPURNIACLEOPATRAMERCYWORSER.1574232057227315722710000000003102200810010051100008527高等教育现代信息检索 28词袋(Bag of words)模型 不考虑词在文档中出现的顺序 John is quicker than Mary 及 Mary is quicker than John 的表示结果一样 这称为一个词袋模型(bag of wor

14、ds model,BOW模型)在某种意思上说,这种表示方法是一种“倒退”,因为位置索引中能够区分上述两篇文档 本课程后部将介绍如何“恢复”这些位置信息 这里仅考虑词袋模型28高等教育现代信息检索 29词项频率 tf 词项t的词项频率(以下简称词频)tft,d 是指t 在d中出现的次数,是与文档相关的一个量,可以认为是文档内代文档内代表度表度的一个量,也可以认为是一种局部信息局部信息。下面将介绍利用tf来计算文档评分的方法 第一种方法是采用原始的tf值(raw tf)但是原始tf不太合适:某个词项在A文档中出现十次,即tf=10,在B文档中 tf=1,那么A比B更相关 但是相关度不会相差10倍,

15、即相关度不会正比于词项频率tf29高等教育现代信息检索 30一种替代原始tf的方法:对数词频 t 在 d 中的对数词频权重定义如下:tft,d wt,d:0 0,1 1,2 1.3,10 2,1000 4,等等 文档-词项的匹配得分是所有同时出现在q和文档d中的词项的对数词频之和 t qd(1+log tft,d)如果两者没有公共词项,则得分为030高等教育提纲 上一讲回顾 排序式检索 词项频率 tf-idf权重计算 向量空间模型31高等教育现代信息检索 32文档中的词频 vs.文档集中的词频 除词项频率tf之外,我们还想利用词项在整个文档集中的频率进行权重和评分计算32高等教育现代信息检索

16、33罕见词项所期望的权重 罕见词项比常见词所蕴含的信息更多 考虑查询中某个词项,它在整个文档集中非常罕见(例如 ARACHNOCENTRIC).某篇包含该词项的文档很可能相关 于是,我们希望像ARACHNOCENTRIC一样的罕见词项将有较高权重 物以稀为贵!33高等教育现代信息检索 34常见词项所期望的权重 常见词项的信息量不如罕见词 考虑一个查询词项,它频繁出现在文档集中(如 GOOD,INCREASE,LINE等等)一篇包含该词项的文档当然比不包含该词项的文档的相关度要高 但是,这些词对于相关度而言并不是非常强的指示词 于是,对于诸如GOOD、INCREASE和LINE的频繁词,会给一个

17、正的权重,但是这个权重小于罕见词权重34高等教育现代信息检索 35文档频率(Document frequency,df)对于罕见词项我们希望赋予高权重 对于常见词我们希望赋予正的低权重 接下来我们使用文档频率df这个因子来计算查询-文档的匹配得分 文档频率(document frequency,df)指的是出现词项的文档数目35高等教育现代信息检索 36idf 权重 dft 是出现词项t的文档数目 dft 是和词项t的信息量成反比的一个值 于是可以定义词项t的idf权重(逆文档频率):(其中N 是文档集中文档的数目)idft 是反映词项t的信息量的一个指标,是一种全局性指标,反应的是词项在全局

18、的区别性。实际中往往计算log N/dft 而不是 N/dft ,这可以对idf的影响有所抑制 值得注意的是,对于tf 和idf我们都采用了对数计算方式36高等教育现代信息检索 37idf的计算样例 利用右式计算idft:词项dftidftcalpurniaanimalsundayflyunderthe1100100010,000100,0001,000,000643210假设语料中文档数目N=1,000,00037高等教育现代信息检索 38idf对排序的影响 对于单词项查询,idf对文档排序没有任何影响 idf 会影响至少包含2个词项的查询的文档排序结果 例如,在查询“arachnocent

19、ric line”中,idf权重计算方法会增加arachnocentric的相对权重,同时降低 line的相对权重38高等教育现代信息检索 39文档集频率 vs.文档频率 词项t的文档集频率(Collection frequency,cf):文档集中出现的t词条的个数 词项t的文档频率df:包含t的文档篇数 为什么会出现上述表格的情况?即文档集频率相差不大,但是文档频率相差很大 哪个词是更好的搜索词项?即应该赋予更高的权重 上例表明 df(和idf)比cf(和“icf”)更适合权重计算单词文档集频率文档频率INSURANCETRY10440104223997876039高等教育现代信息检索 4

20、0tf-idf权重计算 词项的tf-idf权重是tf权重和idf权重的乘积 信息检索中最出名的权重计算方法 注意:上面的“-”是连接符,不是减号 其他叫法:tf.idf、tf x idf40高等教育现代信息检索 41tf-idf小结 词项t在文档d中的权重可以采用下式计算 tf-idf权重 随着词项频率的增大而增大(局部信息)随着词项罕见度的增加而增大(全局信息)41高等教育现代信息检索 42课堂练习:词项、文档集及文档频率 df和cf有什么关系?tf和cf有什么关系?tf和df有什么关系?统计量符号定义词项频率 文档频率文档集频率tft,ddftcft t在文档d中出现的次数出现 t的文档数

21、目t在文档集中出现的总次数42高等教育提纲 上一讲回顾 排序式检索 词项频率 tf-idf权重计算 向量空间模型43高等教育现代信息检索 44二值关联矩阵每篇文档表示成一个二值向量 0,1|V|Anthony and CleopatraJulius Caesar The TempestHamlet Othello Macbeth.ANTHONYBRUTUS CAESARCALPURNIACLEOPATRAMERCYWORSER.11101111111000000001101100110010011101001044高等教育现代信息检索 45tf矩阵 每篇文档表示成一个词频向量 N|V|Anth

22、ony and CleopatraJulius Caesar The TempestHamlet Othello Macbeth.ANTHONYBRUTUS CAESARCALPURNIACLEOPATRAMERCYWORSER.1574232057227315722710000000003102200810010051100008545高等教育现代信息检索 46二值 tfidf矩阵每篇文档表示成一个基于tfidf权重的实值向量 R|V|Anthony and CleopatraJulius Caesar The TempestHamlet Othello Macbeth.ANTHONYBRU

23、TUS CAESARCALPURNIACLEOPATRAMERCYWORSER.5.251.218.590.02.851.511.373.186.102.541.540.00.00.00.00.00.00.00.01.900.110.01.01.510.00.00.124.150.00.00.250.00.05.250.250.350.00.00.00.00.881.9546高等教育现代信息检索 47文档表示成向量 每篇文档表示成一个基于tfidf权重的实值向量 R|V|.于是,我们有一个|V|维实值空间 空间的每一维都对应词项 文档都是该空间下的一个点或者向量 极高维向量:对于Web搜索引擎

24、,空间会上千万维 对每个向量来说又非常稀疏,大部分都是047高等教育现代信息检索 48查询看成向量 关键思路1:对于查询做同样的处理,即将查询表示成同一高维空间的向量 关键思路2:按照文档对查询的邻近程度排序 邻近度=相似度 邻近度 距离的反面 回想一下,我们是希望和布尔模型不同,能够得到非二值的、既不是过多或也不是过少的检索结果 这里,我们通过计算出相关文档的相关度高于不相关文档相关度的方法来实现48高等教育现代信息检索 49向量空间下相似度的形式化定义 先考虑一下两个点之间的距离倒数 一种方法是采用欧氏距离 但是,欧氏距离不是一种好的选择,这是因为欧氏距离对向量长度很敏感49高等教育现代信

25、息检索 50欧氏距离不好的例子尽管查询q和文档d2的词项分布非常相似,但是采用欧氏距离计算它们对应向量之间的距离非常大。50高等教育现代信息检索 51采用夹角而不是距离来计算 将文档按照其向量和查询向量的夹角大小来排序 假想实验:将文档 d 复制一份加在自身末尾得到文档d.d 是d的两倍 很显然,从语义上看,d 和 d 具有相同的内容 两者之间的夹角为0,代表它们之间具有最大的相似度 但是,它们的欧氏距离可能会很大51高等教育现代信息检索 52从夹角到余弦 下面两个说法是等价的:按照夹角从小到大排列文档 按照余弦从大到小排列文档 这是因为在区间0,180上,余弦函数cosine是一个单调递减函

26、数52高等教育现代信息检索 53Cosine函数53高等教育现代信息检索 54查询和文档之间的余弦相似度计算 qi 是第i 个词项在查询q中的tf-idf权重 di是第i 个词项在文档d中的tf-idf权重|和|分别是 和 的长度 上述公式就是 和 的余弦相似度,或者说向量 和 的夹角的余弦 54高等教育现代信息检索 55文档长度归一化 如何计算余弦相似度?一个向量可以通过除以它的长度进行归一化处理,以下使用L2(2范数):这相当于将向量映射到单位球面上 这是因为归一化之后:因此,长文档和短文档的向量中的权重都处于同一数量级 前面提到的文档 d 和 d(两个d 的叠加)经过上述归一化之后的向量

27、相同55高等教育现代信息检索 56归一化向量的余弦相似度 归一化向量的余弦相似度等价于它们的点积(或内积)如果 和 都是长度归一化后的向量56高等教育现代信息检索 57余弦相似度的图示57高等教育现代信息检索 58余弦相似度的计算样例 词项频率tf3本小说之间的相似度(1)SaS(理智与情感):Sense andSensibility(2)PaP(傲慢与偏见):Pride andPrejudice(3)WH(呼啸山庄):WutheringHeights词项SaSPaPWHAFFECTIONJEALOUSGOSSIPWUTHERING115102058700201163858高等教育现代信息检索

28、 59余弦相似度计算 词项频率 tf 对数词频(1+log10tf)词项SaSPaPWHAFFECTIONJEALOUSGOSSIPWUTHERING3.062.01.3002.761.85002.302.041.782.58词项SaS PaPWHAFFECTIONJEALOUSGOSSIPWUTHERING1151020587002011638为了简化计算,上述计算过程中没有引入idf59高等教育现代信息检索 60余弦相似度计算 对数词频(1+log10tf)对数词频的余弦归一化结果 词项SaSPaPWHAFFECTIONJEALOUSGOSSIPWUTHERING3.062.01.3002

29、.761.85002.302.041.782.58词项SaSPaPWHAFFECTIONJEALOUSGOSSIPWUTHERING0.7890.5150.3350.00.8320.5550.00.00.5240.4650.4050.588cos(SaS,PaP)0.789 0.832+0.515 0.555+0.335 0.0+0.0 0.0 0.94.cos(SaS,WH)0.79cos(PaP,WH)0.69cos(SaS,PaP)cos(SAS,WH)cos(PaP,WH)60高等教育现代信息检索 61余弦相似度计算算法假设数组Length预先存放了文档归一化因子,即二范式61高等教育

30、 现代信息检索夹角余弦相似度之外的其他相似度计算 考虑三个因素tf、idf、文档长度 为什么长度因素很重要?长度长的文档词项也多 长度长的文档TF高 需要对长度进行规整/归一(normalization)处理!62高等教育 现代信息检索课堂练习:余弦相似度的一个问题 查询 q:“anti-doping rules Beijing 2008 olympics”反兴奋剂 计算并比较如下的三篇文档 d1:一篇有关“anti-doping rules at 2008 Olympics”的短文档 d2:一篇包含d1 以及其他5篇新闻报道的长文档,其中这5篇新闻报道的主题都与Olympics/anti-d

31、oping无关 d3:一篇有关“anti-doping rules at the 2004 Athens Olympics”的短文档 我们期望的结果是什么?如何实现上述结果?63高等教育 现代信息检索回转归一化 余弦归一化对倾向于短文档,即对短文档产生的归一化因子太大,而平均而言对长文档产生的归一化因子太小 于是可以先找到一个支点(pivot,平衡点),然后通过这个支点对余弦归一化操作进行线性调整。效果:短文档的相似度降低,而长文档的相似度增大 这可以去除原来余弦归一化偏向短文档的问题64高等教育现代信息检索 65预测相关性概率 vs.真实相关性概率65高等教育现代信息检索 66回转归一化(P

32、ivot normalization)66高等教育 现代信息检索回转归一化:Amit Singhal的实验结果 结果第一行:返回的相关文档数目 结果第二行:平均正确率 结果第三行:平均正确率的提高百分比67高等教育 现代信息检索Amit Singhal 1989年本科毕业于印度IIT(Indian Institute of Technology)Roorkee分校 1996年博士毕业于Cornell University,导师是Gerard Salton 其论文获得1996年SIGIR Best Student Paper Award 2000年加入Google,2001年被授予Google

33、Fellow称号 Google 排序团队负责人,被财富杂志(Fortune,2010)誉为世界科技界最聪明的50个人之一68高等教育现代信息检索 69tf-idf权重计算的三要素69高等教育现代信息检索 70tf-idf权重机制举例 对于查询和文档常常采用不同的权重计算机制 记法:ddd.qqq 例如:lnc.ltn 文档:对数tf,无idf因子,余弦长度归一化 查询:对数tf,idf,无归一化 文档当中不用idf结果会不会很差?查询:“best car insurance”文档:“car insurance auto insurance”70高等教育现代信息检索 71tf-idf 计算样例:

34、Inc.Itn查询:“best car insurance”.文档:“car insurance auto insurance”.1/1.92 0.521.3/1.92 0.68 最终结果 wqi wdi=0+0+1.04+2.04=3.0871高等教育现代信息检索 72向量空间模型小结 将查询表示成tf-idf权重向量 将每篇文档表示成同一空间下的 tf-idf权重向量 计算两个向量之间的某种相似度(如余弦相似度)按照相似度大小将文档排序 将前K(如K=10)篇文档返回给用户 向量空间(检索)模型中包含一个向量表示模型,可以广泛用于其他领域,比如:判断论文抄袭、代码抄袭、图像相似度计算等等7

35、2高等教育 现代信息检索Gerard Salton(1927-1995)信息检索领域的奠基人之一,向量空间模型的完善者和倡导者,SMART系统的主要研制者,ACM Fellow 1958年毕业于哈佛大学应用数学专业,是Howard Aiken的关门博士生。Howard Aiken是IBM第一台大型机ASCC的研制负责人。Salton是康奈尔大学计算机系的创建者之一。73高等教育现代信息检索 74本讲内容 对搜索结果排序(Ranking):为什么排序相当重要?词项频率(Term Frequency,TF):排序中的重要因子 Tf-idf 权重计算方法:最出名的经典排序方法 向量空间模型(Vect

36、or space model):信息检索中最重要的形式化模型之一(其他模型还包括布尔模型和概率模型)74高等教育现代信息检索 75本讲小结 tf,反映词项在文档内部的权重,局部权重 idf,反映词项在文档集(文档间)的权重,全局权重 tf-idf,综合以后反映词在文档中的权重 长度因素,归一化75高等教育现代信息检索 76参考资料 信息检索导论第6、7章 http:/ifnlp.org/ir 向量空间入门 Exploring the similarity space(Moffat and Zobel,2005)Okapi BM25(另外一种著名的权重计算方法,信息检索导论11.4.3节)76高等教育 现代信息检索课后练习 有待补充77高等教育

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!