公需科目考试信息检索数据挖掘答案共6页

上传人:痛*** 文档编号:117754407 上传时间:2022-07-09 格式:DOC 页数:7 大小:479.50KB
收藏 版权申诉 举报 下载
公需科目考试信息检索数据挖掘答案共6页_第1页
第1页 / 共7页
公需科目考试信息检索数据挖掘答案共6页_第2页
第2页 / 共7页
公需科目考试信息检索数据挖掘答案共6页_第3页
第3页 / 共7页
资源描述:

《公需科目考试信息检索数据挖掘答案共6页》由会员分享,可在线阅读,更多相关《公需科目考试信息检索数据挖掘答案共6页(7页珍藏版)》请在装配图网上搜索。

1、信息检索所有检索策略都包含三个要素,以下选项中不属于三要素的一项是()A、匹配函数B、排序函数C、文档表示D、查询表示答案:B在向量模型中,不可以通过()来衡量文档和查询之间的相似度。A、向量间距离B、向量内积C、向量间夹角大小D、向量间正切值答案:DT1、T2、T3表示特征项,D1、D2、D3、D4为文档向量,Q为查询向量,其中,D1=4T1+2T2+3T3,D2=T1+4T2+2T3,D3=5T1+2T3,D4= T2+3T3,Q=T1+0T2+2T3 。以上文档中和Q最大可能相关的是()A、D1B、D2C、D3D、D4答案:A以下选项中属于概率模型的优点的是()A、模型具有内在的相关反馈

2、机制,将文档根据相关概率按递减顺序排列B、模型最初将文档分成相关的集合和不相关的集合C、模型中所有的权值都是二值的D、模型假设标引词相互独立答案:A信息检索模型中,神经网络模型属于()A、布尔模型B、向量模型C、概率模型D、结构化模型答案:B以下关于网络爬虫的描述中,错误的一项是()A、在爬虫开始的时候,需要给爬虫输送一个URL列表,作为爬虫的起始位置B、根据某种抓取策略爬行新发现的URL,如此重复下去C、爬虫程序会抓取所有网页,以保证搜索正确性D、对于商业搜索引擎来说,分布式爬虫是必须采用的技术答案:C在实际的搜索引擎系统中,通过存储()来存储文档信息A、文档地址B、文档简化序号C、文档编号

3、D、文档编号差值答案:D下面方法中,不是建立索引的方法的是()A、两边文档遍历法B、排序法C、归并法D、HITS答案:D关于PageRank标准算法与简化算法正确的是()A、PageRank简化算法对G中的每一个节点n,设定其初始值均为1/nB、PageRank简化算法可以保证迭代过程中的PageRank值之和为1C、PageRank标准算法不考虑没有超链接网页的情况D、在实际运算过程中,由于节点数n的值巨大,因此通常采用适用于稀疏矩阵运算的PageRank标准算法来对运算过程进行改善答案:A关于HITS算法描述正确的是(C)A、算法最后输出的是按照内容权威度排序的结果列表B、如果在原有的扩展

4、网页集合内添加删除个别网页或者改变少数链接关系,HITS算法的排名结果不会有非常大的改变C、HITS算法核心思想是对网页两个方面的权威程度进行评价,一个是内容权威度,另一个是链接权威度,两者具有相互增强的关系D、HITS是与查询相关的算法,计算效率较高答案:C网页重定向属于下列哪种作弊方式(C)A、内容作弊B、链接作弊C、隐藏作弊D、Web2.0作弊答案:C对网页进行两次抓取,第一次是正常的搜索引擎爬虫抓取,第二次以模拟人工访问页面的方式抓取,如果两次抓取到的内容差异较大,则认为是作弊页面,这属于()A、识别网页重定向B、识别页面隐藏C、反内容作弊D、链接反作弊答案:B以下不是搜索引擎的主要功

5、能模块的一项是()A、网络爬虫B、搜索引擎索引C、PageRankD、搜索排序答案:C以下选项中描述不正确的是()A、爬虫的作用是为搜索引擎抓取大量的数据,抓取的对象是整个互联网上的网页B、根据具体应用的不同,可以将爬虫分为两种类型,即增量型爬虫和垂直型爬虫C、暗网是一些垂直领域网站,它们通常是网站提供组合查询界面,用户按照需求输入查询之后,才能获取相关数据D、倒排列表是指记载出现过某个单词的所有文档的文档列表、以及单词在该文档中出现的位置信息答案:B以下选项中描述正确的是()A、动态索引包含2个关键的索引结构:倒排索引、临时索引B、查准率是衡量系统在实施某一作业时检出相关文献能力的一种测度指

6、标,是对检索遗漏程度的度量。C、中文分词技术采用了基于符号的方法来识别D、机器学习的四个步骤中,文档特征抽取是指利用抽取算法抽取查询词TF/IDF信息、文档长度、网页PageRank值、网页入链/出链数量等答案:D以下关于推荐系统和搜索引擎的说法中,错误的是()A、推荐系统和搜索引擎都是为了解决信息过载的问题B、搜索引擎需要用户提供明确的需求C、推荐系统是由用户主导的D、搜索引擎注重结果之间的排序答案:C下列关于推荐系统评测中在线实验的说法,错误的是()A、可以公平获得不同算法实际在线时的性能指标B、成本较低,容易部署C、可以获得商业上关注的指标,如转化率、点击率等D、周期较长,需要进行长期的

7、实验才能得到可靠的结果答案:B为了覆盖用户的不同兴趣领域,我们需要提高推荐结果的()A、惊喜度B、满意度C、多样性D、准确率答案:C下列各项中为工业界更关注的评测指标的是()A、点击率B、惊喜度C、新颖性D、准确率答案:A从商家角度看,推荐系统受欢迎的原因有()A、拓宽了用户获取知识的方式B、可以增加用户信任度和粘性,增加营收C、可以帮助用户发现喜欢的新事物D、可以增强用户体验答案:B下列选项中是显性反馈数据的是()A、用户观看了某个视频B、用户对某个视频的评分C、用户观看视频的日志D、用户在某个视频的停留时长答案:B下列关于基于用户的协同过滤算法的说法中,错误的是()A、随着网站的用户数目越

8、来越大,计算用户兴趣相似度矩阵将越来越困难B、基于用户的协同过滤算法相对于基于物品的协同过滤算法来说更个性化,反映了用户自己的兴趣传承C、基于用户的协同过滤算法可以使用余弦相似度来评测两个用户之间的联系D、新用户刚加入系统时,基于用户的协同过滤算法没有办法马上对该用户进行个性化推荐答案:B下列关于推荐算法的说法中,错误的是()A、隐语义模型很难实现实时推荐B、基于物品的协同过滤算法着重于维护用户的历史兴趣C、使用基于内容的推荐算法进行个性化推荐时,由于非结构化特征难以利用,我们通常直接将其舍弃D、基于用户的协同过滤算法更社会化,着重于反映和用户兴趣相似的小群体的热点答案:C针对用户冷启动问题,

9、下列选项中做法错误的是()A、利用用户的人口统计学信息B、推荐热门商品C、引导用户勾选感兴趣的标签D、利用用户手机中其它应用的日志文件分析用户的兴趣点答案:D下列选项中不是冷启动问题解决方案的是()A、推荐热门商品给新用户B、请专家对商品进行标注C、推荐冷门物品给用户D、雇佣少量用户试用新商品并给出评分答案:C数据挖掘以下哪项不属于知识发现的过程?( )A、数据清理B、数据挖掘C、知识可视化表达D、数据测试答案:D以下哪些不属于数据挖掘的内容?( )A、分类B、聚类C、离群点检测D、递归分析答案:D以下哪个不是常见的属性类型? ( )A、A标称属性B、数值属性C、高维属性D、序数属性答案:C以

10、下哪个度量属于数据散度的描述? ( )A、均值B、中位数C、标准差D、众数答案:C以下哪个度量不属于数据中心趋势度描述?( D )A、A均值B、中位数C、众数D、四分位数答案:D对数据进行数据清理、集成、变换、规约是数据挖掘哪个步骤的任务?( )A、频繁模式挖掘B、分类和预测C、数据预处理D、噪声检测答案:C聚类分析是数据挖掘的一种重要技术,以下哪个算法不属于聚类算法?( )A、K-MeansB、DBSCANC、SVMD、EM答案:C建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( )A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则答案:C当

11、不知道数据所带标签时. 可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )A、分类B、聚类C、关联分析D、隐马尔可夫链答案:B在构造决策树时,以下哪种不是选择属性的度量的方法? ( )A、信息增益B、信息增益率C、基尼指数D、距离答案:D知识发现流程最核心的步骤是什么? ( )A、数据挖掘B、数据预处理C、模式评估D、知识表示答案:A将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( )A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘答案:C以下哪个度量属于数据中心性的描述? ( )A、均值B、极差C、众数D、标准差答案:A类分析是数据挖掘的一种

12、重要技术,以下哪个算法不属于聚类算法?( )A、K-MeansB、DBSCANC、KNND、EM答案:C某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题? ( )A、关联规则发现B、聚类C、分类D、自然语言处理答案:A以下哪些算法是分类算法?( )A、DBSCANB、C4.5C、K-MeanD、EM答案:BK-means算法的缺点不包括?( )A、K必须是事先给定的B、选择初始聚类中心C、对于“噪声”和孤立点数据是敏感的D、可伸缩、高效答案:D机器学习中,下面哪些方法不可以避免分类中的过拟合问题?( )A、增加样本数量B、增加模型复杂度C、去除噪声D、正

13、则化答案:B下面那个不属于知识发现过程。( )A、数据清理与集成B、数据统计C、数据挖掘D、模式评估和知识表示答案:B在构造决策树时,以下那个不属于选择属性的度量? ( )A、信息增益B、信息增益率C、基尼指数D、信息熵答案:D关于频繁模式,下面哪一个陈述是正确的? ( )A、K项集频繁则K-1项则必定不频繁B、K项集频繁则K-1项则必定频繁C、K项集不频繁则K-1项则必定频繁D、以上都不正确答案:BDBSCAN算法最大的挑战是? ( )A、确定聚类个数B、确定聚类形状C、确定半径及MINPTSD、确定评估指标答案:C以下那个不属于分类算法? ( )A、KNNB、朴素贝叶斯C、K-MEANSD、SVM答案:C以下哪些陈述是不正确的? ( )A、聚类可以发现数据内部结构B、聚类可以作为其他任务的预处理C、聚类可以作为异常检测D、聚类是一种监督学习方法答案:DSVM通过什么实现线性不可分问题? ( )A、特征降维B、特征筛选C、基尼指数D、核函数答案:D知识改变命运7 / 7

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!