文献检索效率的影响因素及其改善方法2

上传人:小** 文档编号:54511822 上传时间:2022-02-14 格式:DOC 页数:4 大小:90KB
收藏 版权申诉 举报 下载
文献检索效率的影响因素及其改善方法2_第1页
第1页 / 共4页
文献检索效率的影响因素及其改善方法2_第2页
第2页 / 共4页
文献检索效率的影响因素及其改善方法2_第3页
第3页 / 共4页
资源描述:

《文献检索效率的影响因素及其改善方法2》由会员分享,可在线阅读,更多相关《文献检索效率的影响因素及其改善方法2(4页珍藏版)》请在装配图网上搜索。

1、文献检索效率的影响因素及其改善方法文献检索的目的是全面、准确地为用户提供所需文献。但是,从用户角度来看 ,在检出的文献中可能会夹杂着一些不符合提问要求的文献(即误检文献 );反之 ,在未检出的文献中也可能存在着少量符合提问要求的文献 (即漏检文献 )。由于用户的看法和需要不同 ,对检出文献是 否满足要求的相关性 (即实用性 )评价也可能不同。 因此 ,文献的相关性评价在某种程度上带有 主观性。尽管如此。仍可作为评价文献检索效率的基础。所谓检索效率简单地说,是指检索系统提供库存相关文献、 满足用户的程度。文献检索效率一般按照以下标准来评价 :1文献库 收录范围;0查全率和查准率;?响应时间;?费

2、用等。其中查全率和查准率是重要的也是最常采 用的技术标准。在现代的文献检索系统中,查全率一般为 60 一 70%, 查准率为 40 一 50%。由于查全率和查准率之间存在着互逆关系,如果进一步提高查全率 (超过 70%),只能靠降低查准率来达到 ,反之亦然。 因此,对任何一个文献检索系统来说 ,要求得到查全率和查准率均为1 的答案 ,实际上是不可能的 ,必须按照用户的要求选择最佳的查全率和查准率的比例关系。影响 检索效率的因素实践表明 ,影响检索效率的因素是多方面的 ,主要与文献标引的质量、主题词 表的质量和检索式编写等因素有关。(一)标引质量标引指的是对文献或提问进行主题分析、给出检索标识(

3、主题词、分类号等 )的过程。其目的是按照给定的检索标识组织各种检索工具 (例如,目录、索引或机读文档等 )。因此 ,文献 标引质量不仅与组织检索工具有关 ,而且是影响检索效率的主要因素之一。1. 衡量标引质量的标准标引质量可以理解为标引文献或提问时给出主题词的正确性和全面性,表现在文献的引得深度。按照兰卡斯特的定义“引得深度是指标引的网罗性和主题词的专指性”的总称,据1966 一 67 年期间使用 MEDLARS 系统所得到的文献检索效率表明 ,漏检相关文献数的 20% 是由于引得深度不够造成的。因此,我们可以将标引的网罗性和主题词的专指性做为评价标引质量的标准。 (1)标引的网罗性是指标引时

4、揭示文献主题内容的广度而言。如果对文献内 容分析得愈深透 ,标引得愈全面 ,那么检索时相关主题的文献就能都检索出来,因而查全率较高。例如 ,查找题为“计算机检索软件设计”方面的文献,经过文献主题分析后选出计算机,情报检索、程序设计三个词。从标引的广度或包含检索角度来看,还应补加 :程序系统和应用程序二个词。另一方面 ,如果标引的网罗性太高 ,那么检出的文献中就会渗杂着较多的非相关 文献 ,查准率就会降低。 因此 ,标引网罗性是影响查全率的重要因素之一。(2)主题词的专指性。主题词的专指性是指其表达主题的深度而言。标引时,如果选用专指性强的主题词愈多,则检索时检出的文献针对性愈强 ,查准率就愈高

5、。仍以“计算机检索软件设计”问题为例,标引时除选用“计算机”一词之外 ,还应选用“电子计算机”一词。使用前一词可以实现包含检索,查全率较高 ,使用后一词可以实现特性检索 ,查准率较高。 因此,主题词的专指性影响查准率的重 要因素之一。怎样掌握标引的网罗性和主题词的专指性,以达到所需引得深度 ,应根据检索系统任务和数据库特点而定。2。标弓 !质量的影响因素由于人们专业知识和工作经历不同 ,在标引的网罗性和主题词专指性方面,很难达到标引的一致性 ,同时也很难避免产生错误。所谓标引的一致性是指几个人同时标引一篇文献或一 个人在不同时间内标引同一篇文献所选用主题词的一致程度。(1)网罗性不当226 的

6、积累”标引时 ,如果不选用表示环例如 ,对文献题为“空气、土壤、对流层中氢境的主题词“空气、土壤、对流层”,而只选用表示氢移动的“降水”一词,则网罗性很低 ,检索时必定漏检相关文献 ,查全率降低。(2)用词不当、漏掉重要词例如 ,对文献题为“调整加速器中气体流速阀的性能”标引时 ,只选用“阀”作标引词 , 而未选用作为使用对象的“加速器” ,76,或者选用“气体” 、“流体”之类的不适当的词 ,而漏 掉“气体流、流量”之类的重要i 司 ,检索时就会产生漏检和误检 ,结果降低查全率和查准率。当然 ,标引时人们还会做出其他错误 ,影响标引质量。(二 )主题词表质量主题词表的质量主要表现在词表结构和

7、词汇特点方面。 词表结构由款目词、 词间关系及 其有关数据组成。款目词按其字顺排歹lJ, 以便于检索。词间参照关系一般分为同义关系、等级关系和相关关系。 同义关系的作用是当某一概念采用不同词时用来确定采用的词。 借以 提高查准率 ,等级关系和相关关系的作用是推荐主题词、扩大标引范围,借以提高查全率。因此,参照关系在一定程度上决定主题词表的功能。冠恩和达古里阿克调查美国国会图书馆 标题表(L七)医学索引标题表(人悦SH)和美国武装部队技术情报局主题词表(ASTIA)之后发现 ,参照性愈强 ,检索效率愈高。反之 ,如果完全没有参照关系 ,或者参照关系不完备 ,检 索效率就愈低。 他们对这三种表做了

8、所得的结果。 导出性是指一个款目词可由多少其他主题 词导出而言。从表 1 可以看出 ,ASTIA 词表检索效率最高 ,MeSH 检索效率最低。为了正确而 全面地建立词间关系 ,必须注意同义词的选定、概念的划分等。参照关系是否齐全,是衡量词表质量的标准之一 ,影响着系统的检索效率。改善检索效率的辅助措施和方法通过上述分析可知, 影响文献检索的因素错综复杂,但归纳起来, 大致涉及三方面 问题即检索语言、检索策略和标引(检索)员业务水平等。多年来,人们使用规范语言、制定标引规则, 确实提高了一些检索效率;此外, 为了进一步提局检索效率,还提出了几种辅助 措施和方法,例如,相关主题词连组法、词间句法描

9、述、副标题表达法和加权法等。1. 相关主题词连组法相关主题词连组法是解决由于后组产生的错误匹配所带来的误检问题,使用符号表示相则应将该文献按关主题词之间联系一种方法,亦称联号法。例如, 一篇涉及 “放射线治疗法与计算机诊断”两个以上主题的文献, 两个部分来标引,选用放射线、 治疗法、 计算机和诊渐法四个词, 如果上述标引词之间按定的匹配加以联系,检索时就可能产生诸如“放射线诊断法”或”计算机治疗法”之类的误 组,这种现象叫做交叉误检,这就是说,即使标引文献正确,也可能产生误检。因此,应用 相同的符号将相关的主题词联系起来,就可以避免误检和漏检,提高査准率。2. 词间句法描述上述联号法虽然解决了

10、主题词之间的误组问题, 但不能表达词间的句法意义。 为此, 还 要采用一种符号表达主题词之间的相对句法关系, 这种方法叫做联号法。例如,一篇“使用 计算机诊断肺炎”的文献,标引时选用肺炎、 计算机和诊断三个词,而一个检索提问是关于 “计算机故障等诊断” 。如果该提问检索式是由 “计算机 * 诊断”组成,那么上述文献就被检 出,结果造成了误检。如果采用预先规定的职号,例如,采用I 表示“行为的对象” ,2 表示“实现手段”,等等。上述文献标引为“肺炎(I) ”、“计算机(2) ”和“诊断”,则按检索 式“计算机 (I ) * 诊断”进行检索,就不会造成误检了。3 .副标题表达法 这是美国国家医学

11、图书馆采用的方法, 将某一特定词选为副标题,与主题词组配,起 到限定观点的作用。例如,题为“使用计算机诊断肺炎”文献,可标引为“肺炎/ 断,计算机/诊断应用”形式。这种表达形式可以将主题相关的词联系在一起(即起到联号作用) ,又可表示词间句法关系(即起到职号作用) ,这样可以提高查准率。4.加权法 这种方法就是按照文献的标引同或提问的标引词的重要度(即所谓“权” )给出一定的 值,并对所有词的权进行累加, 其结果超过某一规定值时, 便将满足提问的文献输出。 例如, 提问“计算机文献检索用程序系统” ,提问主题同的权值分别为: 计算机 (10)、文献检索 (6)、 程序设计(8),如果规定总权值

12、为 如,检索时将超过该总数值的所有文献均输出。采用这种 方法可以有选择地检出所需主题的文献,提高査准率。上述各种方法在一定程度上改善检索效率, 尤其提高査准率, 但仍然有其局限性, 应该 有针对性运用。实践表明,职号、联号 比较适用于化学、化工、石油等特定专业文献的检 索,而用于其他专业文献的检索,有时在经济上并不上算。采用规范词可以提高查全率,但 其査准率有时不如自由词高,因此,近年来国外许多系统采用规范词加自由词的标引方式。 为了保证文献标引质量,提高检索效率,还应加强以下几方面工作: 主题分析是文献标引的基础, 决定着标引的一致性。 没有正确的主题分析, 就不可能 得到满意的标引结果。 目前情况是, 主题分析技术比较落后, 也未建立比较完善的分析手段 和原则,因此,应加强这方面的研究。 提问检索式的算法。 例如, 算子的使用和排列, 运算规则等均与检索效率有密切的关系,决定着检索速度。对检索式算法,过去和现在都未曾进行系统的理论和实验研究,这是情报检索研究中的薄弱环节,今后应给予必要的重视。 标引工作不仅是脑力劳动,而且技术性很强,不是任何人都能胜任的。为了保证标引质量, 必需要求标引人员具备一定的专业知识, 对其进行必要的培训。 在当前开展标引工 作中,标引员的培训已成为当务之急。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!