计算机信息检索原理

上传人:san****019 文档编号:15903607 上传时间:2020-09-13 格式:PPT 页数:53 大小:299.69KB
收藏 版权申诉 举报 下载
计算机信息检索原理_第1页
第1页 / 共53页
计算机信息检索原理_第2页
第2页 / 共53页
计算机信息检索原理_第3页
第3页 / 共53页
资源描述:

《计算机信息检索原理》由会员分享,可在线阅读,更多相关《计算机信息检索原理(53页珍藏版)》请在装配图网上搜索。

1、2020/9/13,第2章 计算机信息检索原理,1,文献检索,任课教师 蒋永新 办公室:图书馆207室 电话:66132072,2020/9/13,第2章 计算机信息检索原理,2,教学日历,2020/9/13,第2章 计算机信息检索原理,3,1.1 信息时代与文献课(p.1-3),文献课是知识时代培养学生终身所需的信息意识与获取文献信息能力的重要课程,是一门科学方法课。文献课对学生不断吸取新知识,改善知识结构,有着重要的意义。,2020/9/13,第2章 计算机信息检索原理,4,1.1 信息时代与文献课,在社会信息化的进程中,文献信息检索的意义日益变得重要: 文献信息数量激增。 知识的更新速度

2、在加快,信息知识的有效期在缩短。 信息获取成为一门专门的技术。,2020/9/13,第2章 计算机信息检索原理,5,1.1 信息时代与文献课,教材: 人文社会科学信息检索教程 蒋永新 鲍国海等编著 2003年上海大学版,2020/9/13,第2章 计算机信息检索原理,6,1.1 信息时代与文献课,课程的主要内容为: 文献信息概论; 专业信息源及文献信息的手工检索原理; 计算机信息检索原理; 综合性光盘和网络数据库及其使用方法; 互联网信息的检索和利用,2020/9/13,第2章 计算机信息检索原理,7,1.1 信息时代与文献课,文献检索课的两个基本要求: 要求学生掌握主要检索工具的使用方法,能

3、够选择数据库、制定检索策略、分析检索结果;能够独立地完成检索课题;掌握获取原始文献的主要方法。 要求学生培养信息意识。具体来说是要求形成信息就是价值、就是效益、就是生存权的自觉意识。,2020/9/13,第2章 计算机信息检索原理,8,1.1 信息时代与文献课,平时练习作业占总分30% 其中 文献类型识别 10 中国期刊网作业 25% EBSCO作业 30% OPAC 20% 搜索引擎(百度) 15% 出勤(缺勤一次扣除平时总分的10%) 期末考试(机考)安排在第10周,成绩占总分70%,2020/9/13,第2章 计算机信息检索原理,9,网络课件的注册登陆和使用,文献课网络课件(在互联网终端

4、上) 网址:http:/202.120.121.238:2048 用自己学号和身份证号码登录,注意教师和班级的选择(周一7、8节,DJ204教室) 网络课件用于预习复习,特别用于通过练习题目,掌握重点知识 与教师的联系:教学留言版,2020/9/13,第2章 计算机信息检索原理,10,第2章 信息检索原理,2020/9/13,第2章 计算机信息检索原理,11,第2章 信息检索原理,本课要点: 文献信息数据库的类型和结构 计算机信息检索的基本步骤 检索概念的分析方法和检索词的处理方法 检索策略调整的基本方法,2020/9/13,第2章 计算机信息检索原理,12,第2章 信息检索原理,本章要求自学

5、的内容: 信息检索原理,文献信息检索的类型,检索效果评价 信息检索系统的构成,印刷型信息检索系统的类型, 信息检索语言,2020/9/13,第2章 计算机信息检索原理,13,2.1信息检索的基本概念,信息检索是指从任何信息集合中查找所需信息的活动、过程与方法。,2020/9/13,第2章 计算机信息检索原理,14,2.1信息检索的基本概念文献信息的内外部特征,与文献信息主题内容密切相关的信息称为文献信息的内容特征。文献信息内容特征主要有各种形式的主题词和分类号。 与文献信息主题内容没有关系或关系不大的信息称为文献信息的外表特征,例如著者、著者单位、期刊名称、专利说明书的专利号、科技报告的报告号

6、等。,2020/9/13,第2章 计算机信息检索原理,15,2.2.3 计算机信息数据系统(p.25),文献信息数据库的定义和种类 数据库的构成 文档、记录、字段 数据库检索原理,2020/9/13,第2章 计算机信息检索原理,16,2.2.3 文献信息数据库原理 定义(p.25),数据库是指至少由一种文档(file)组成,能满足特定目的或特定功能数据处理系统需要的数据集合。,2020/9/13,第2章 计算机信息检索原理,17,2.2.3 数据库构成,从使用者观点观察, 数据库主要由“文档记录字段”三个层次构成。,文档,记录,字段,2020/9/13,第2章 计算机信息检索原理,18,2.2

7、.3 数据库构成:文档,从数据库的内部结构来看,文档的概念是指数据库内容的组织形式。一般地说,一个数据库至少包括一个顺排文档和一个倒排文档。 顺排文档是按照记录号顺序组成的数据集合,是数据库的主体、正文。 倒排文档是按照一定的属性顺序,对顺排文档的内容,重新排列组成的数据集合,对数据库正文起索引作用。,2020/9/13,第2章 计算机信息检索原理,19,2.2.3 数据库构成:文档,记录号 标识词 11 计算机,软件,安全 12 软件,网络 13 网络,安全,软件 ,标识词 记录号 安全 11, 13 计算机 11 软件 11, 12,13 网络 12, 13 ,标识词 记录数 安全 2 计

8、算机 1 软件 3 网络 2 ,主文档,倒排文档,索引引词典倒排文档,2020/9/13,第2章 计算机信息检索原理,20,2.2.3 数据库构成:记录,记录是文档的基本单元。它是对某一实体的全部属性进行描述的结果。 在全文数据库中,一个记录相当于一篇完整的文献;在书目数据库中,一个记录相当于一条文摘或题录。,2020/9/13,第2章 计算机信息检索原理,21,2.2.3 数据库构成- 记录示例(p.25),Title: The economics of fleet management computing. Subject(s): CLIENT/server computing Sourc

9、e: American City Cost effectiveness. AN:9608140975 ISSN:0149-337X Database: Academic Search Elite-,2020/9/13,第2章 计算机信息检索原理,22,2.2.3 数据库构成:字段(p.26),字段是记录的基本单元。它是对实体的具体属性进行描述的结果。在书目数据库中,记录中含有题名、著者、出版年、主题词、文摘等字段。,2020/9/13,第2章 计算机信息检索原理,23,2.2.3 数据库构成:字段,2020/9/13,第2章 计算机信息检索原理,24,2.2.3 数据库构成:字段,2020/9

10、/13,第2章 计算机信息检索原理,25,2.3 文献信息检索方法(p.26-p.27)按照检索工具使用与否区分的类型,直接检索法:直接从报刊杂志中通过浏览的方法从中获取所需信息的一种方法,是一种获得最新信息的方法。但很难快、准、全地查获所需的信息。 间接检索法:通过检索工具的指引进行查找,获取所需信息的一种方法,效率高,效果好。,2020/9/13,第2章 计算机信息检索原理,26,2.3 文献信息检索方法(p.26-p.27)按照使用的检索工具区分的类型,追溯法:是利用已有的文献后面所附的参考文献追查原文,从而获得一批相关文献信息的查找方法。 常用法:是利用目录、题录、文摘或数据库等各种检

11、索工具来查找文献的方法 综合法:综合使用追溯法和常用法两种方法,2020/9/13,第2章 计算机信息检索原理,27,2.3.2 文献信息的一般检索步骤,明确检索要求,分析课题概念 选择需要使用的数据库 构成检索策略 根据检索结果调整检索策略 输出检索结果,2020/9/13,第2章 计算机信息检索原理,28,2.3.2 文献信息的一般检索步骤1.明确检索要求和检索,搞清楚本课题属于什么学科,所需情报的文献类型及语种,查找文献的年代,所需文献的最佳篇数,允许支配的检索费用。,2020/9/13,第2章 计算机信息检索原理,29,2.3.2 文献信息的一般检索步骤2.选择数据库,按照课题的检索要

12、求和目的,选择收录文献种类、专业覆盖面、年代跨度对口的数据库; 当需要查找最新文献信息时,选择数据更新周期短的数据库; 当还需要获取原文时,选取原文获取较容易的数据库;,2020/9/13,第2章 计算机信息检索原理,30,2.3.2 文献信息的一般检索步骤2.数据库的选择,2020/9/13,第2章 计算机信息检索原理,31,2.3.2 文献信息的一般检索步骤2.数据库的选择文科常用的文献数据库,中文类文科常用数据库: 中国期刊网全文数据库,文理各科 维普期刊网全文数据库,文理各科 社科报刊数据库文摘数据库,文科 人大复印资料数据库全文数据库,文科 外文类文科常用数据库: EBSCO文摘/全

13、文数据库,文科为主 Kluwer全文数据库,文理各科,2020/9/13,第2章 计算机信息检索原理,32,2.3.2 文献信息的一般检索步骤,3.确定检索途径 4.记录和阅读文献线索 5.索取原始文献 p.30,2020/9/13,第2章 计算机信息检索原理,33,2.4 检索概念的分析和扩展方法(p.30),1课题分析方法 2. 课题背景知识的获取方法,2020/9/13,第2章 计算机信息检索原理,34,2.4 检索概念的分析和扩展方法(p.32)1.基于同物异名的名称扩展法,(1) 寻找同一事物的学名和俗名、商品名和代号等 如:贸易与商业,便携式录音机和walkman, 涉外与对外,刊

14、物与杂志, (2) 寻找同一事物的简称、全称、音译和意译等 如:外语与外国语言,world wide web、WWW、互联网与因特网、科技与科学技术,培养与教育,2020/9/13,第2章 计算机信息检索原理,35,2.4 检索概念的分析和扩展方法1.基于同物异名的名称扩展法,(3) 寻找同一事物名称的近义词和反义词 如:教学与培训、教育,研究与分析、比较、理论、变化,翻译与直译、意译,美术与艺术,英汉与汉英,否定与肯定 (4) 如果是英语,寻找同一事物名词的单复数、不同词性、英美语的不同形式 如:cheque与check,colour和color,stock和share等,2020/9/13

15、,第2章 计算机信息检索原理,36,2.4 检索概念的分析和扩展方法2.基于内容分析的概念扩展法,(1) 上位概念扩展法,分析检索对象的学科归属。如:英语与外语,美术与艺术,上海图书馆与公共图书馆,词法与语法专利与知识产权、继承法与民法、唐诗与古诗、词法与语法等 (2)下位概念扩展法,又称概念分析的树形展开法。如: 英语外贸 应用文 英汉科技 翻译 书信 函电 公文 化学 机械 通信 口译 笔译,2020/9/13,第2章 计算机信息检索原理,37,2.4 检索概念的分析和扩展方法2.基于内容分析的概念扩展法,(3) 隐含概念扩展法 如:“投资管理”的显见主题是“投资管理”,隐含主题还有“投资

16、法规”、“投资法律”。 又如,“作家笔下的主人公特征比较”,隐含主题还有“文学作品”和“小说”。,2020/9/13,第2章 计算机信息检索原理,38,2.3.3 检索概念分析和扩展方法3.基于检索结果的概念扩展法,对初步检索结果进行分析,往往能够得到与课题相关的新的检索概念,将这些概念经过重新组合,就可以达到扩展检索结果的目的。,2020/9/13,第2章 计算机信息检索原理,39,2.6.2 计算机检索策略的构成方法1. 布尔逻辑算符,或(OR)运算符 S1 1834 company S2 2022 enterprise S3 3647 company OR enterprise 使用于具

17、有基本相同或近似概念的同义词、同族词之间,enterprise,company,2020/9/13,第2章 计算机信息检索原理,40,2.6.2 计算机检索策略的构成方法1.布尔逻辑算符,与(AND)运算符 WTO China S1 12940 WTO S2 2173 China S3 842 WTO AND China WTO AND China 使用于需要组配不同概念的检索词之间,2020/9/13,第2章 计算机信息检索原理,41,2.6.2 计算机检索策略的构成方法1. 布尔逻辑算符,非(NOT)运算符 S1 110 PATENT S2 325 GERMAN S3 108 PATENT

18、 NOT GERMAN PATENT NOT GERMAN 使用于需要从某个概念中剔除另一个概念的场合,patent,German,2020/9/13,第2章 计算机信息检索原理,42,2.6.2 计算机检索策略的构成方法2. 优先处理算符(p.41),?S A OR B (集合号为S1) ?S C OR D (集合号为S2) ?S S1 AND S2,?S (A OR B) AND (C OR D),使用优先处理算符“( )”,2020/9/13,第2章 计算机信息检索原理,43,2.6.2 计算机检索策略的构成方法3. 截词算符(p.41),当某些英语检索词词干相同、词义相近,但词尾或词中

19、间有变化时(多数英语单词的单复数变化和英美不同拼写形式),可以采用截词符,或称通配符扩展检索词。 无限截词:以任意词尾变化为特征 例如:manag* work? 有限截词和屏蔽符:以单个字母变化为特征。例如:m?n moderni?ation,2020/9/13,第2章 计算机信息检索原理,44,2.6.2 计算机检索策略的构成方法3. 截词算符(p.41),一是截词符要紧接在词干后面,截词符和词干之间不能有空格。 二是避免将检索词的词干截得过短,一般应在三个字母以上。 三是截词应该使用得合理。一般不可能出现词尾变化的单词,例如management, protection等,其后不必再使用截词

20、。 四是从希望出现的单词中取尽可能多的公共字母作为词干,以提高查准率,比如在对manage,managing,managed,management和manager作截词运算时,词干应使用“manag*”,而不应使用“man*”。,2020/9/13,第2章 计算机信息检索原理,45,2.6.2 计算机检索策略的构成方法4. 位置算符,指定检索词之间的距离和出现的顺序的算符 (W) 算符两侧的检索词次序不能颠倒,两词之间不允许有其他的词或字母,但允许有空格或“,”或“-”号。 (Wn)算符两侧的检索词之间最多允许插入n个词,两个检索词词序不允许颠倒。,2020/9/13,第2章 计算机信息检索原

21、理,46,2.6.2 计算机检索策略的构成方法4. 位置算符,(N)算符两侧的检索词必须紧密相连,两词之间不允许有其他的词或字母,但词之间次序可以颠倒。 (Nn)算符两侧的检索词之间最多可插入n个单词,且这两个检索词的词序任意。,2020/9/13,第2章 计算机信息检索原理,47,2. 6.2 计算机检索策略的构成方法5. 字段限制,字段限制适用于在已有一定数量输出记录的基础上,通过指定字段的方法,减少输出篇数,提高检索结果的查准率的场合。 篇名 作者 刊名 主题词,2020/9/13,第2章 计算机信息检索原理,48,2.6.3 检索策略的调整 (p.43),输出篇数过多,原因可能是: 选

22、用了多义性的检索词; 截词截得过短; 输入的检索词太少; 应该使用“与(AND)”的使用了“或(OR)”; 优先运算符“()”使用错误。,2020/9/13,第2章 计算机信息检索原理,49,2.6.3 检索策略的调整(p.43),输出篇数过少,原因可能是: 检索词拼写错误; 遗漏重要的同义词或隐含概念; 检索词过于冷僻具体; 没有使用截词算符; 位置算符和字段算符使用的过多; 使用过多的“与(AND)”算符。,2020/9/13,第2章 计算机信息检索原理,50,2.6.3 检索策略的调整(p.43),需要扩大检索范围,提高检索结果查全率的,调整策略的方法有: 减少“与(AND)”算符,增加

23、同义词或同族相关词用逻辑或(OR)将它们连接起来; 在词干相同的单词后使用截词符(?); 去除已有的字段限制、位置算符限制(或者改用限制程度较小的位置算符)。,2020/9/13,第2章 计算机信息检索原理,51,2.6.3 检索策略的调整(p.43),如果需要缩小检索范围,提高检索结果查准率的,调整策略的方法有: 减少同义词或同族相关词; 增加限制概念,用逻辑与(AND)将它们连接起来; 使用字段限制,或者限制检索词在指定的基本字段出现,或者指定辅助字段,限制结果的文献类型、语种、出版国家; 使用适当的位置算符; 使用“非(NOT)”算符,排除无关概念。,2020/9/13,第2章 计算机信息检索原理,52,请提问题,2020/9/13,第2章 计算机信息检索原理,53,

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!