如何让你的检索结果既全又准.ppt

上传人:w****2 文档编号:15667165 上传时间:2020-08-28 格式:PPT 页数:77 大小:6.01MB
收藏 版权申诉 举报 下载
如何让你的检索结果既全又准.ppt_第1页
第1页 / 共77页
如何让你的检索结果既全又准.ppt_第2页
第2页 / 共77页
如何让你的检索结果既全又准.ppt_第3页
第3页 / 共77页
资源描述:

《如何让你的检索结果既全又准.ppt》由会员分享,可在线阅读,更多相关《如何让你的检索结果既全又准.ppt(77页珍藏版)》请在装配图网上搜索。

1、第二章 如何让你的检索结果 既全又准,陈 强,“信息爆炸” 知识的门类和数量迅速倍增 知识的载体和传输方式日新月异 每日新增网页近百万张 2010年全球网站数量突破18亿 文献增速 70年代每7年翻一番 1999年每1年半翻一番 2010年每10小时翻一番,一、 计算机信息检索原理,计算机信息检索:用户利用数据库获取所需信息的过程。 即:计算机将输入机检系统的用户提问标识(检索词)与已存贮在系统中数据库内的文献特征标识(标引词)进行匹配比较,凡符合给定的比较原则和逻辑运算条件者即为命中文献。,计算机信息检索特点,检索速度快 效率高,检索方便 实现资源共享,检索内容新 数量大,手段灵活 途径多样

2、,快速、 准确地获得结果,缺点:收费、有时间限制、回溯性差,无法查久远的或最新的文献。,检索特征标识 = 系统中的信息特征标识,二、检索软件类型,检索软件即用户与系统对话的界面, 可分为以下两种:,指令检索示例,肝肿瘤 and (铜 or 铁) and py=2005,菜单检索示例,三、数 据 库,数据库定义,数据库结构,数据库类型,1.数据库定义,相互关联的数据在计算机外存储器上有序的集合.,2、数据库结构 Framework of Database,文档(File),数据库中一部分记录的集合,综合性数据库 多按学科划分文档,记录(Record),数据库的基本信息单元,每条记录都描述了原始信

3、息的各项外表特征和内容特征。,字段(Field),组成记录的数据项(检索项),一个字段代表一项特征。,文档,记录,字段,文档,记录,字段 描述信息特征的数据项,分 类 号:F326.11 H195.3机标 标 题:由粮食危机引发的话题 著 者:高铁生 著者单位:中国市场协会 中文摘要:当前,粮食问题引发世界 各国普遍关注 出 处: 中国物流与采购 2008.12: 16-18 关 键 词:粮食危机 话题 世界市场 中国政府 粮食问题 政治危机 社会恐慌 国际标准刊号:ISSN 1671-6663 国内统一刊号:CN 11-4812/F,字段名称及代码,基本字段: 字段名称 段码 文摘(Abst

4、racts) AB 题目(Title Word) TI 主题词(Descriptor) DE 标识词(Identifier) ID 辅助字段: 作者 (Authors) AU 作者单位(Corporate Source) CS 刊名(Journal Name) JN 年代( Publication Year ) PY,3、数据库类型 types of databases,文献数据库,书目数据库(bibliographic database),存储二次文献,其检索结果是文献的线索而非原文。 如BKSY,全文数据库(full text database),主要存储一次文献 提供原始文献全文,数值数

5、据库(numeric database),主要存储用数值表达的量化信息 WHO 的世界卫生统计数据,事实数据库(fact database),主要存储三次文献(what、where、when、who、why、how)类信息 中国大百科全书 Marriam Webster Dictionary 提供的大不列颠百科全书 免费查询,多媒体/超文本数据库multimedia/hypertext database,同时存储声音、图像、文字等的超文本信息。,检索者如何让计算机实现自己的检索意图?,四、检索提问表达式,检索提问表达式检索词运算符,(一)、检索词,数码类 2007(年) C19H33NO2HC

6、L(分子式) 343.94 (分子量) D665.2(分类号) GNGY(基因代码) 54-16-089 (化学物质登记号),字词类 获得性免疫缺陷综合征 AIDS 刘伟 中国行政管理 云南大学 3一乙酰基一5一羟甲基,布尔逻辑符,字段限定符,位置运算符,通配符,短语符,(二)、运算符,questions,铁(痕量元素);李铁(人名);铁道医学杂志(刊名);上海铁道医学院,铁路医院(作者地址),查找作者“黎明” 的文章,结果包括了“黎明”及“黎明”的文章,英语单复数的变异 、英美拼法的不同、同义不同性词(词干相同后缀不同);音译外来词中文取词的不同,布尔逻辑运算符Boolean Operato

7、rs,逻辑与,A AND B A*B,缩小检索范围,提高专指性。,示例,糖尿病与高血压,A AND B,逻辑或,A OR B A+B,扩大检索范围,提高查全率。,示例,政治、经济、宗教与伦理学的关系,A,C,B,(A OR B OR C) AND D (A+B+C)*D,D,政治,经济,宗教,伦理学,逻辑非,A NOT B A-B,缩小检索范围,提高查准率。,示例,非共产主义人生观 B821.2(人生观、人生哲学中除共产主义人生观外的那一部份),A:人生观、人生哲学 B:共产主义人生观,A not B A-B,逻辑运算次序,布尔逻辑运算次序 布尔逻辑的运算就象数学中的四则运算的“先乘除后加减”

8、一样,也有优先级的问题,它的优先级从高到低依次为: 非(NOT)与(AND)或(OR) 当然,括号最优先。因此,括号也称为优先符。优先符可以改变布尔逻辑的正常运算次序。 如:信息+情报 NOT 经济 (信息+情报)NOT 经济 检索结果不同。,示例,胃炎、胃溃疡、胃肿瘤与幽门螺杆菌 的相关性 (不要 cagA ,vagA),(胃炎 or 胃溃疡 or 胃肿瘤) and (幽门螺杆菌 or 幽门弯曲杆菌) not (cagA or vagA),布尔逻辑的运算可以进行同类项的合并。 如:A*B+A*CA*(B+C) 然而,在使用布尔逻辑时,必须注意以下几条交换规则: A*B=B*A A+B=B+A

9、 A-BB-A,2. 截词检索,以符号取代检索词(中、尾)的部分字符,从而检出相同词干和相同词根的词。 截词包括后截、中截、前截等。用?作为截词符(有些系统用*),主要包括下列情形: 截词符? 中截一字符,后截断n个字符 如 wom?n 可以检索出: woman, women 又如 computer?以computer词干开头的词 可以检索出:computer、computers、computerize、computerise 注意:截词是计算机信息检索的一项重要特性,不同数据库有不同的截词符,大多数为“?”。,% * 后方一致(前截断):“%国庆” 将检索出所有字段为张国庆、欧阳国庆、国庆等

10、的记录。 前方一致(后截断) : 如:“热电材料% ”将检索出热电材料梯度化、热电材料及其梯度化等的记录。,词中替代:,示例 1,示例 2,词尾截断:,computer、computers、computing、computerize、computerise,Comput*,以Dialog Medline 数据库为例: With 运算符为“()” 表示检索词紧密相连,中间不能插入任何字母或词,但允许有“ ” 或“”,前后顺序不能颠倒。 如 X()ray 表示 X ray 或 X-ray,由于逻辑算符不能限定检索词的位置关系, 因此有些数据库和因特网检索系统采用了位置算符来加以限制,3、 邻近检索

11、,(2)word 运算符为(nW)(n为自然数) 表示两词之间最多可插入0-n个词 前后顺序不能颠倒。 如:control(1w)system可以检索出“control system” “control in system”等的信息。,(3) near 运算符为“(nN)” 表示检索词相邻,中间可插入0n个词,前后顺序可以颠倒 如 infusion(1n)urokinase 表示: infusion of urokinase urokinase infusion,(4) sentence 运算符为“(S)” 表示检索词出现在同一个句子中. (5) field 运算符为“(f)” 表示两个词必须

12、出现在同一字段内.,Example 1,Health(s)environment? Recently environmental control is regarded as important for good human health conditions and toxic substances, including carcinogens and endocrine disruptors should be eliminated from our living environment ,Example 2,Health(f)environment? Abstract: Effects

13、of environmental changes in a stair climbing intervention: generalization to stair descent is available for human health ,这些位置运算符可以一起使用,顺序为 (W)(S)(F) 。 实际上这些运算符都是扩大检索范围。,邻近检索小结,4、 限制检索,在信息检索系统中,为了满足某种检索条件或 达到某种精确程度,通常使用一些缩小或限定检索结 果的方法。针对特定年代、特定类别、特定检索点等 作限制,包括前缀限制符和后缀限制符。,后缀限制符例如: /TI 限在题目中查 /AB 限在文

14、摘中查 /DE 限在叙词标引中查,前缀限制符例如: AU= 限查特定作者 JN= 限查特定刊名 LA= 限查特定语种 PN= 限查特定专利号 PY= 限查特定年代,字段限制符,数据库中主要用于指定检索字段,网络信息检索中可对文献信息类型进行限制 如在谷歌和百度搜索引擎中 检索特定的文献类型: “报告 filetype:pdf ” 检索指定网址内的信息: “报告 site:” 以后会看到一些数据库通常都有年代/类型等的选择,5. 短语检索符 (phrase),检索符 “ ” 用于检索固定短语或专有名词 在短语或专有名词前后加双引号,系统将其按词组对待,不再将其分割按单词检索。,示例,“4-met

15、hoxy-salicylaldehyde”(4-甲氧基水杨醛) “PCR”,6、 网络检索,短语检索(半角双引号) 自动纠错检索(如:李熬,你是不是要检索李敖) 自动转换检索(如:汉语拼音转换成文字) 自然语言检索 概念检索(同义词/近义词/狭义词,如搜索引擎Excite) 相关检索,7、 其它检索的表述,二次检索/在结果内检索 精确检索 模糊检索 跨库检索/一站式检索 扩展检索(类似搜索引擎的概念检索) 一般检索/高级检索/专家检索/命令检索,运算符小结,计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。 布尔逻辑检索、截词检索、邻近检索、短语检索、字段检索、网络信息检索 几

16、乎所有的检索系统都有布尔逻辑检索、截词检索(模糊检索)和限制检索,而不同的检索系统又会有一些特殊的检索技术和功能。,五、其他检索功能,扩展检索,系统基于词表,自动或半自动地对多个检索词执行逻辑 “或” 运算,扩展检索包括:,同 义 词 扩 展,下 位 词 扩 展,-下位词扩展,上位词,下位词,上位词扩展检索,Computer (主题词),电脑 计算机,同 义 词,-同义词扩展,全文检索,以原始记录中的词语为检索对象 直接使用自由词 位置运算符是全文检索常用的运算符,六、调整检索策略,检出文献太多(要准) 缩小检索范围的方法,检出文献太少(要全) 扩大检索范围的方法,如何让你的检索 结果既全又准

17、?,检索文献太多,1)用AND增加相关概念或用NOT排除无 关概念 美洲哲学 and 美国哲学 and 十九世纪后期 and 爱默生 and 哈利斯 美洲哲学 and 美国哲学 and 十九世纪后期 not 皮尔斯 not 波温,2)限制检索词出现的字段,mt-DNA in 标题,3)选用词表中更专指的下位词,性传播疾病性传播疾病, 病毒性 HIV感染 获得性免疫缺陷综合征,4)用位置运算符限定检索词间的位置关系,目的:全方位考察核心期刊在世界学术期刊分级研究中的特征及作用。,核心期刊 10/w 学术期刊分级,检出文献太少,1)减少AND连接的概念,或用OR增加同 义词或相关词。,爱兹病 or

18、 艾兹病 or AIDS or 获得性免疫综合征,2)用通配(截词)符,对同根词进行检索。 democra* 检索与 “民主” 这一概念相关的所有表达形式,财政法 税收法 所得税,3)换用词表中的上位概念词进行扩展检索,毛泽东著作 选集 选读,4)增加回溯年代、扩大检索范围。 近5年 近10年 近15年 近20年 单一学科/文档 跨学科/文档 专业性数据库 综合性数据库,七、计算机检索的基本步骤,明确信息需求(学科、年代、语种、检索对象、文献类型等),选择恰当的检索工具、检索途径、检索方式,确定提问词和运算符,编写检索提问表达式,输入计算机,浏览检索结果,调整检索策略,得到满意的结果,获取原文,举2例你所研究领域的同根词(英文),并写出相应的通配型。示例:immune immunity immunology 通配型: 任选一题,请写出下列可能使用的中英文检索表达式。至少8个。 (1)外来入侵物种对云南本地生物多样性的影响和防控策略以紫茎泽兰和大米草为例 (2)聚乳酸(PLA)在生物工程包装材料和药物控释载体中的应用研究 (3)构树药用活性化学成分及药理临床应用研究进展 (提示:从布尔逻辑运算符、字段限制符、位置运算符、通配符、短语符等多个角度考虑) 11月7日前,发送至,练习,

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!