中国科学院大学现代信息检索2023年秋季期末试题及答案

上传人:Wo****C 文档编号:168438986 上传时间:2022-11-10 格式:DOC 页数:10 大小:20.50KB
收藏 版权申诉 举报 下载
中国科学院大学现代信息检索2023年秋季期末试题及答案_第1页
第1页 / 共10页
中国科学院大学现代信息检索2023年秋季期末试题及答案_第2页
第2页 / 共10页
中国科学院大学现代信息检索2023年秋季期末试题及答案_第3页
第3页 / 共10页
资源描述:

《中国科学院大学现代信息检索2023年秋季期末试题及答案》由会员分享,可在线阅读,更多相关《中国科学院大学现代信息检索2023年秋季期末试题及答案(10页珍藏版)》请在装配图网上搜索。

1、中国科学院大学现代信息检索2023年秋季期末试题及答案 - 中国科学院研究生院 试 题 专 用 纸 课程编号:71258-Z-2 课程名称:现代信息检索 任课老师:王斌 姓名 学号 成绩 一、 判断题(正确打,错误打。每题2分,共30分) 1、 建立倒排索引时,只能以文件作为索引单位。 ( ) 2、 词项集合和词条集合有时可以完全不同,甚至交集为空集。( ) 3、 轮排索引和k-gram索引都可以支持通配查询的处理。 ( ) 4、 倒排索引的构建与所处的硬件环境息息相关。( ) 5、 的编码序列唯一,但解码序列不唯一。 6、 向量空间模型的计算当中,采用余弦相似度和欧氏间隔 得到的相似度是一致

2、的,即两个向量的余弦相似度大,那么欧氏间隔 一定小,而当余弦相似度小时欧氏间隔 大。 7、 信息检索系统中只存在一种索引构造。 8、 隐式相关反应中对用户的行为进展分析p ,因此一定会进步检索的效果。 9、 在BM25检索模型中,考虑了文档长度对检索带来的影响。 10、在朴素贝叶斯分类器,基于多项式模型和基于贝努利模型的实现中采用了完全一样的假设 。 条件独立假设 + 位置独立假设+只考虑出现 位置独立假设 + 考虑不出现 11、特征选择函数MI(Expected Mutual Information)考虑了词项不存在对分类带来的影响。( ) 12、SVM分类的速度与支持向量的个数无关。 13

3、、K-均值聚类算法的结果依赖于初始种子质心的选择。 14、GAAC层次聚类算法的结果具有确定性。 15、隐性语义索引LSI本质上是将原始的向量空间线性变换到另一个高维向量空间。 二、 选择题(单项或多项选择。每题2分,共16分) 1、关于倒排索引的压缩,以下表达正确的选项是 A B 。 A压缩能进步空间的利用率 C词典压缩作用不大 2关于向量空间模型,以下表达正确的选项是A B D 。 B压缩能进步硬盘到内存的传输速度 D可变字节编码压缩是一种有损压缩方法 A查询和文档均看成向量 B权重计算的方式很多 D相似度计算的方式很多 C查询和文档表示成不同空间的向量 共5页 第1页 3关于隐式相关反应

4、,以下表达错误的选项是B 。 A该反应中实际上有用户参与 C该反应是一种部分方法 4关于伪相关反应,以下表达错误的选项是A B 。 A该反应中实际上有用户参与 C该反应是一种部分方法 5 关于kNN分类器,以下表达错误的选项是 B 。 A该分类器几乎不需要训练 C该分类器是非线性分类器 6关于Rocchio分类器,以下表达错误的选项是A B 。 A该分类器不需要训练 C该分类器训练速度很快 7关于K-均值聚类算法,以下表达错误的选项是 B D 。 A该聚类算法要事先给定聚类数目 C该聚类算法的时间复杂度是线性的 8关于HAC聚类算法,以下表达错误的选项是A C D 。 AHAC必需要指定聚类数

5、目 BHAC算法都是确定性算法 DHAC的相似度只能采用向量内积计算 B该聚类算法是确定性算法 D该聚类算法能得到全局最优结果 B该分类器通常分类效果不错 D该分类器分类速度很快 B该分类器分类速度很快 D该分类器通常分类效果不错 B该反应后的检索效果一定会进步 D该反应效果一般会低于用户相关反应 B该反应后的检索效果一定会进步 D该反应效果一般会低于用户相关反应 CHAC要求文档要以向量来表示 三、 计算题(每题6分,共30分) 1、 面对两个正确答案集合分别是Rq1=d1,d2,d3,d4,d5及 Rq2=d6,d7,d8,d9,d10 的查询q1、q2,某个检索系统A返回的检索结果如表1

6、所示。试计算出该系统对每个查询的P、R、F、P10、AP等指标,并计算整个系统的MAP指标。请写出计算过程并将最后结果汇总填入表2中(小数点后保存2位即可)。其中AP计算采用未插值方法。 表1 检索结果表 系统-查询 返回结果数 返回结果中正确答案所在位置 A-q1 A-q2 20 20 2-d2; 4-d4;5-d1;10-d5 1-d6,4-d7;10-d8;12-d9 共5页 第2页 表2 结果汇总表 系统&查询 A-q1 A-q2 P 0.2 0.2 R 0.8 0.8 F 0.32 0.32 P10 0.4 0.3 AP 0.4 0.427 MAP 0.414 2、 对于以下分别采用

7、VB编码和编码的间距编码结果(第一个是原始值,后面为间隔值),请复原原始的间距序列及倒排记录表。 (1) VB编码:00010 11000 10001 00 00001 01 00100111000 0001 000010101 2872, 21, 738997 2872, 2893, 741890 00010 11000 100111000 2872 10001 01 21 00 00001 01 00010101 738997 2872 2893 741890 (2) 编码: 1100111111100111111110001111110 11001 4 + 1 =5 1111110011

8、 64 + 23 = 87 111111000111 128 + 71 = 199 1110 8 + 6 = 14 5 92 291 305 110 01 1111110 011 11111110 1000111 1110 110 0111 11000111 1110 5 87 199 14 5, 92, 291, 305 3、 对于如下坐标轴上的点,请分别采用单连接、全连接和质心法HAC对这些点进展聚类,并输出聚类的树状图。 0 1 2 3 4 5 6 7 单连接 0 1 2 3 4 5 6 7 全连接 0 1 2 3 4 5 6 7 质心法 0 1 2 3 4 5 6 7 4、 假设五个网

9、页A、B、C、D、E构成如下的链接关系,试采用如下公式(u指当前页面,Bu是所有链接到u的页面集合,Nv是页面v的总链出链接数,R(u)和R(v)分别是u和v的PageRank值,为计算方便,假定c=1)计算每个网页的归一化PageRank值,即五个网页的PageRank总和为1。 E R(A)=1/2 R(C) R(B)=1/3 R(A) D C A B R(C)=1/2 R(B)+R(D) R(D)=1/3R(A)+1/2R(B)+1/2R(E) R(E)=1/3R(A)+1/2R(C) R(A)+R(B)+R(C)+R(D)+R(E)=1 解得,A=B=6/41, C=12/41, D=

10、9/41, E=8/41 共5页 第3页 5、 假设有图中三角形和圆形两类数据,某个分类器在某个测试数据集上得到的分类结果如以下图所示(分类器将左图中的数据断定为三角形类,将右图中的数据断定为圆形类),分别计算该分类器在三角形和圆形这两个个类别上的正确率、召回率和F值,并计算该分类器在所有类别上的宏平均F值、微平均F值和准确率(accuracy)。 三角形类 圆形类 三角形类:P=4/5=0.8, R=4/6=2/3, F=8/11=0.727 圆形类: P=5/7, R=5/6, F=10/13=0.769 MacroF=(8/11+10/13)/2=80/157=0.5222 MicroP

11、=MicroR=MicroF=Accuracy=(4+5)/12=0.75 四、 应用题(每题8分,共24分) 1、 基于网页的新闻内容抽取是指从新闻网页中提取新闻标题和正文的过程(如以下图所示),试应用本课程学到的文本聚类技术实现上述过程,给出你的思路的详细步骤(内容抽取到文本聚类问题的映射、文本表示方法、相似度计算方法、聚类算法等)和过程(提示:尽量详细)。 可以根据文本之间的间隔 或密度定义相似度从而进展聚类。其他方法也行。 共5页 第4页 2、 中文分词是将输入的中文句子切分成一个个词语的过程,如“我是中国人? 我 是 中国 人”,中文分词可以采用无事先定义词典的方法。试应用本课程学到的文本分类技术实现无词典的分词过程,给出你的思路的详细步骤(内容抽取到文本分类问题的映射、文本表示方法、特征选择及分类算法等)和过程(提示:尽量详细)。 一种是在每个字边界上定义 连-断 二类分类问题; 一种是在每个字上定义: 词开场,词中部、词尾部 三类分类问题。 可以根据上下文提取特征。 3、 从发表内容和关注关系(构造)两个角度出发,设计一个算法来计算微博用户之间的相似度(提示:尽量详细)。 根据用户之间内容的相似度可以计算,基于两个用户的关注关系可以计算集合相似度,然后两个相似度组合起来。 共5页 第5页 第 10 页 共 10 页

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!