第三章 信息检索语言

上传人:m**** 文档编号:198347797 上传时间:2023-04-08 格式:DOCX 页数:20 大小:38.99KB
收藏 版权申诉 举报 下载
第三章 信息检索语言_第1页
第1页 / 共20页
第三章 信息检索语言_第2页
第2页 / 共20页
第三章 信息检索语言_第3页
第3页 / 共20页
资源描述:

《第三章 信息检索语言》由会员分享,可在线阅读,更多相关《第三章 信息检索语言(20页珍藏版)》请在装配图网上搜索。

1、第三章信息检索语言检索语言是检索系统的重要组成部分,是信息存贮人员和检索人员都要使用的语 言工具。检索语言,是根据信息检索需要而创制的人工语言,从不同角度又被称 为情报语言、情报存贮与检索语言、文献语言、标引语言等等。目前世界上有一 两千种检索语言。例如中国图书馆图书分类法、汉语主题词表、国际 十进分类法、杜威十进分类法、NASA叙词表等,都是检索语言的一 个语种。有数千万计的信息机构和检索刊物的工作人员和读者正在使用着这类语 言。正因为检索语言的极其重要性,所以本书单独列章进行介绍。31 信息检索语言概论311 检索语言与检索效率检索语言与检索效率有最密切的关系,它在信息检索过程中起着十分重

2、要的作 用。 如前所述,信息检索的全过程包括信息的存贮和检索两个过程。检索语言 起着沟通这两个过程的桥梁作用。当存贮信息时,文献标引人员首先要对各种文 献进行主题分析,即把它所包含的信息内容分析出来,使之形成若干能代表文献 主题的概念,并用检索语言的语词(标识)把这些概念标示出来,然后纳入检索工 具或检索系统。当检索信息时,信息检索人员也首先对检索课题进行主题分析, 即把它所涉及的检索范围明确起来,使之形成若干能代表信息需要的概念,并把 这些概念转换成检索语言的语词(标识),然后从检索工具或检索系统中查找正好 用该语词标引的文献,从而找到包含有所需信息的文献。由此可见,检索语言是信息存贮和检索

3、系统的重要组成部分,在检索系统中起着 语言保证作用,直接影响着检索效率。如果没有检索语言作为标引人员和检索人 员的共同语言,就很难使标引人员对文献信息内容的表达(标引用语)和检索人员 对相同内容的信息需要的表达(检索用语)取得一致,信息检索也就不可能顺利实现,甚至根本不能 实现。1检索语言的构成和特点检索语言就其实质来说,是表达一系列概括文献信息内容的概念及其相互关系的 概念。如果教学时数不够,本章的分析可以删略。标识系统。它可以是从自然语 言中精选出来并加以规范化的一套词汇,可以是代表某种分 类体系的一套分类 号码,也可以是代表某一类事物的某一方面特征的一套代码(如化合物的各种代 码),用以

4、对文献内容和检索课题进行主题标引、特征描述或逻辑分类。检索语言由词汇和语法两部分组成。词汇是指登录在分类表、词表中的全部标识。 一 个标识(分类号、检索词、代码)就是它的一个语词,而分类表、词表则是它 的词典;检索语言词典有书本式,有机读式。检索语言的语法是指产生、控制和 运用检索语言的标识来正确表达文献信息内容和检索课题的一整套规则。对于信 息用户来说,了解这些规则,就能更加准确、全面、迅速地选择表达检索课题所 需的检索语言标识,并将它们组合成正确的检索提问式。在文献信息检索中,之所以要使用专门的检索语言,是因为检索语言具有适合检 索需要的一些特点。它们是: 进行词汇控制,实现概念与语词的惟

5、一对应,排除多词一义(同义词),一词多 义 够义词)和词义含糊现象,实现概念表达的惟一性和准确性。例如,在自然语 言(在人类交际中自然演变形成的语言)中,“电子计算机”、“计算机”、“电 脑”这三个词表达的是同尸事物。如果在检索系统中有三篇文献分别用这三个词 表达,并按字顺排在不同的地方,当用户需要这方面内容的文献时,若只用其中 的一个词进行检索,结果就会漏掉符合需要的其余文献,降低检全率。此类情况 下,若想检全,检索者就得想出与检索课题有关的所有语词,这是比较困难的。 为此检索语言进行了词汇控制,在多个同义词、准同义词中选一个最通用、最科 学的词作为标引和检索用词。相反,为了提高检准率,就得

6、把多义词限定为单义 词,而消除词义不清的现象,可以同时有利于提高检全率和检准率。 根据词所表达的概念之间的关系,显示词间关系,或将大量的词组织成有内在 联系 的逻辑系统,借此实现大量文献信息的系统化、相关文献信息的集中化, 从而有利于文献 信息检索。例如,将电子计算机、电子模拟计算机、电子数字 计算机、大型计算机、微型计算机、浮点计算机等表示各种计算机并各有相关文 献信息的词集中起来、联系起来,对需要关于计算机文献信息的用户就很有好处。 相当简明的标识,借助一定的语法规则,既能比较确切地表达概括文献信息内 容及检索课题的概念,又方便将标识及其所代表的概念和相应的文献信息进行系 统排列和组织,并

7、便于将文献信息标识与检索提问标识进行相符性比较。检索语言的质量高低及其使用正确与否,对检索效率有重大影响。2对检索语言的基本要求在信息检索中,决定检索效率有四个方面的因素,即检索语言的质量、标引质量、 索质量、其他方面的因素。其中,检索语言的质量与检索效率关系最密切。为了保证较高的检索效率,对检索语言的基本要求是:(1)保证较高的检全率和检准率。或者说,漏检率和误检率要能控制在允许的范 围 内。这是对检索语言最基本的要求。检全率主要与一种检索语言是否能比较 全面地显示概念之间的等级关系和相互关系,以及在它的词汇中是否能排除同义 现象有关;检准率主要与它的标识(单个标识或若干标识的组合)是否能达

8、到较高 的专指度, �在它的词汇中是否能排除多义现象和同形异义现象,以及它是否 能正确地、恰如其分地显示概念之间的关系有关。检索语言的选词和列类是否能 符合文献主题的实际情况和信息检索的实际需要,则与检全率和检准率都有关。(2)能满足多种检索要求。社会的信息需求是多种多样、千变万化的,即使是同 一个 人,也会提出不同类型的检索要求。检索语言对各种检索要求的适应性, 主要与它们的构成原理有关,即与它们用什么方式来构成概念标识,以及按哪些 原则、方式来排列、组织概念标识和显示概念之间的关系有关。一种检索语言能否满足多种检索要求,主要看它的下列各种性能如何:是否既 能从学科、专业出发进行检索,

9、又能从事物出发进行检索;是否既能较好地进 行族性检索,又能较好地进行特性检索;是否能视检索过程中出现的具体情况 而自由地扩大、缩小或改变检索范围;是否能进行多途径检索;是否能进行 多因素检索,即按任何特征组配检索,或者用布尔代数表达检索课题和进行逻辑 运算,实现精确检索。所谓族性检索和特性检索是两个相对的概念,在它们之间没有明确的界线。一般 认 为,从学科、专业出发的范围较广泛的检索要求是族性检索,从事物出发的、 范围较狭窄的检索要求是特性检索。在检索语言中,分类法系统各种语言的职能 主要是满足族性检索的要求,主题法系统各种语言的职能主要是满足特性检索的 要求。其实,无论是从学科、专业出发的检

10、索(可称学科检索或分类检索),还是 从事物出发的检索(可称事物检索或主题检索),都有族性检索和特性检索。任何 检索语言,都应采取一定的方法和手段,从而既适合于族性检索的要求,又适合 于特性检索的要求。(3)易于标引,易于检索。是否易标易检,不仅与标引、检索的速度有关,而且 与标引、检索的质量有关。因为一种检索语言如果不是易于为标引人员和检索人 员所掌握,将会导致标引误差和检索误差的增加。保证易标易检的条件是多方面 的。包括: 语词或符号含义的明确性。例如,在体系分类法中通过类名措施、等级隶属结 构 (形成语言环境)、类目注释、类目划分细则等来明确分类号的含义。 语法的严密性。即凡是会出现分歧的

11、地方都要有明确规定,规则不能模棱两可 或自 相矛盾。例如,在叙词法中明确规定“凡词表中已有专指词者不得用泛指 词组配标引”, “凡可以用组配标引又可以用上位词标引者优先用组配标引”。 标识的直观性及其排列次序易于理解。在这方面,语词标识比符号标识直观性 好, 先组式的标题词比组配式的叙词直观性好,组配分类法的分类号比体系分 类法的分类号直观性好,层累制的分类号比顺序制的分类号直观性好。号码或语 词的排列,应尽量避免特殊的、使人不易理解的规定。 查词查号手段的多样性。例如,体系分类表编有类目索引,叙词表编有分类索 引、 等级索引、轮排索引、多语种对照索引等,使标引人员和检索人员从各种 方便的角度

12、都能查到所需的标识。 整个语言包含概念的丰富和完备性。所谓包含概念丰富,如体系分类表中类目 多, 以类目注释方式列出的概念多;叙词表中叙词多,作为检索“人口”的非 叙词多等。所谓包含概念完备,是指不论任何主题的文献都能有类可归,有适当 的语词可以用来标引,即使是用泛指类目和泛指词也可以。(4)具有对先进的检索方式和检索设备的适应性,以及对多种检索方式和检索设 备的 适应性。检索方式即文献信息存贮与检索方式,可以分为文献单元方式和 标识单元方式。文献单元方式也称顺检方式、顺排档,其特点是文献标识直接加 在文献款目上作为标目。 文献款目即按文献标识排列,查到文献标识即可见到 文献著录事项。我国文献

13、信息机构使用的卡片式目录都是属于文献单元方式。标 识单元方式也称逆检方式、倒排档,其特点是检索工具分两部分,一部分是文献 卡(文献款目),另一部分是标识卡,标识卡上只记有关文献号,标识卡与文献卡 之间用文献号(较多的是顺序号)联系,检索时先查标识卡 (可以组配),得到有 关的文献号之后再转查文献卡,才能见到文献著录事项。各种组配索 引都是属 于标识单元方式,计算机检索系统中的倒排档也是属于标识单元方式,附有索引 的检索刊物绝大多数可以认为是标识单元方式(更正确地说是文献单元方式和标 识单元方式的结合系统)。检索设备可以分为传统检索设备和非传统检索设备。传统检索设备有普通卡片式 目 录、书本式目

14、录等,非传统检索设备有比号卡、比孔卡、穿孔卡、机械式检 索系统、光电式检索系统、计算机检索系统等。各种检索方式和检索设备都有一定优缺点和适用范围,它们与检索语言是互相配 合 的。一种检索语言的优点是否能充分发挥,与所选用的检索方式和检索设备 密切相关。一 种先进的检索方式检索设备要能充分发挥它的优异性能,也必须 对检索语言提出一定的要 求。总之,各种检索语言对各种检索方式和各种检索 设备的适应性是各不相同的。比如,上下文关键词法比较适用于电子计算机系统 却不太适用于卡片式目录。当前,信息检索的计算机化已成为提高检索效率的一 个重要途径。结合计算机检索设备特点设计的检索语言,有助于充分发挥计算机

15、 的优异功能。但是,也应考虑到一种检索语言能适应多种检索方式和检索设备, 使其发挥更大的效用。比如我国的汉语主题词表就兼顾了计算机检索系统和 手工检索系统两个方面的需要。(5)具有对多种学科和多种类型文献的适应性,以及对多种类型文献信息机构的 适应 性。一般地说,专业性或专用性检索语言在处理本专业或特定类型文献上 效率比较高,但在处理其他专业或其他类型文献上效率就比较低,甚至完全不适 用。综合性检索语言比较适用于综合性文献信息机构处理多种学科和多种类型的 文献,效率虽不甚高,但那些单位不可能同时使用许多种专业性和专用性的检索 语言。因此,提高综合性检索语言的效率无疑是必要的,但也是比较困难的。

16、(6)具有对文献信息机构各个工作环节的适应性。在这方面,体系分类法(包括体 系组配分类法)的适应性较强,除适用于信息检索外,还适用于文献排架、文献 资源建设计 划、服务部门的划分、文献报道、统计等工作。其他语言则几乎只 能用于信息检索和文献报道。(7)具有与其他检索语言的兼容性和一国通用性以及国际通用性。每一种检索语 言都 是根据一定需要而创制的,不但具有适应某些具体需要的特点,而且往往 还带有某个国家的特点和某种自然语言的特点。这样,造成各种检索工具和检索 系统之间缺乏“互换性”,不能互相利用标引成果,检索也很不方便。所以,要 力求检索语言的一国通用性和国际通用性,即标准化。特别是目前信息检

17、索网络 化发展的需要,更迫切要求解决各种检索语言的兼容性问题。各个检索系统都使 用同一种检索语言是不可能的,因为至今还没有、大概也不可能有一种检索语言 能满足一切实际需要。但是,如果能使各种检索语言特别是同一类型的检索语言 接近起来(例如尽可能用同一个语词来表达同一概念等),就有助于克服障碍和提 高效率。(8)具有不断进行修改的可能性,即要能跟上科学技术和社会的发展。科学技术 领域中新学科新知识不断出现,各学科之间的关系在不断变化,社会也在不断发 展,检索语言要易于扩充修改,及时增补新概念,反映新事物,以及改变旧的结 构和概念联系,以适应息检索的需要。以上是对检索语言的一些基本要求。但是,实践

18、中还没有一种语言能完满地达到 上述全部要求,所以目前在信息存贮和检索实践中是多种检索语言共存的局面。312 检索语言的类型各种检索语言的基本原理是一致的。但是,它们在表达各种概念及其相互关系和 在解决对它们提出的那些基本要求时所采用的方法不同,因而形成了不同的类型 和语种。(1)按照构成原理分为分类检索语言、主题检索语言、代码检索语言。 分类检索语言是用分类号来表达各种概念,将各种概念按学科性质进行分类和 系统排列。分类检索语言包括等级体系型分类检索语言(体系分类法)和分析综合 型分类检索 语言(组配分类法)。 主题检索语言是用语词来表达各种概念,将各种概念不管其相互关系完全按字 顺排 列。主

19、题检索语言包括标题词型检索语言(标题法)、单元词型主题检索语 言(单元词法, 现已淘汰)、叙词型主题检索语言(叙词法)和关键词型主题检索 语言(关键词法)等。标题法的检索标识是在编表时就固定组配好,即所谓“先组式”的;单元词法和 叙词法的检索标识一般是在检索时才组配起来,即所谓“后组式”的。标题法、单元词法和叙词法都要对取自自然语言的语词加以规范化,而关键词法 一般认为是直接使用自然语言不加规范,其实它也要进行某种程度的规范化处 理。标题法、单元词法和叙词法在表达各种概念及其相互关系的方法上各有特点, 但许多方法是互相通用的。所以在它们之间没有明确的分界线。事实上,目前分类检索语言和主题检索语

20、言也相互渗透,各种方法互相采用。例 如, 叙词法就采用了多种检索语言的方法。 代码检索语言是一般只就事物的某一方面特征,用某种代码系统加以标引和排 列。 例如,依据化合物的分子式这种代码语言可以构成分子式索引系统,允许 用户从分子式出发,检索相应的化合物及相关文献信息。(2) 按照标识组合的先后分为先组式语言和后组式语言。使用检索语言和使用自 然语 言一样,当表达简单概念时,只需用单词即可;当表达复杂的概念时,则 需要用词组或若干词、词组构成的短语。检索语言有两种方式提供表达文献信息 内容和检索课题概念所需的词组或短语,因而形成了两类检索语言。 先组式语言。这是一类将表达各个概括文献信息内容或

21、检索课题的复杂概念所 需的词组或短语,与表达简单概念的单词一样;在检索语言的词典(分类表、主 题词表、代码表)中基本列出的检索语言。也就是说,在标引文献信息之前,就 已将需要用到的词组或短语(标识的组合)组配好了。目前所用的大多数分类语言 是先组式分类语言,如中国 图书馆图书分类法等。主题语言中的标题语言 也是先组式语言,如美国国会图书馆标题表等。先组式语言一般只能以先组 方式在检索系统中使用。 后组式语言。这类语言仅提供表达文献信息内容和检索课题概念所需的基本标 识��单词或部分词组,当需要表达文献信息内容和检索课题的复杂概念 时,可根据需要,依据一定的规则,用若干个表达简单概念

22、的基本标识来组合 (组配)表达相应的复杂概念。由于它是在使用检索语言的时候才进行标识组配, 因而被称为后组式语言。后组式分类语言使用得不多。叙词语言是后组式的主题 语言,如我国的汉语主题词表。后组式语言在检索系统中有两种使用方式:a. 在检索系统中将表达特定文献信息内容的几个标识组配好,构成一个完整的 复杂标识。因而检索者根据课题可能要用检索语言的几个标识,并组配在一起进 行检索。这种检索系统用的是后组式语言,但却是先组式检索系统。b. 检索系统并不将表达特定文献信息内容的几个标识在形式上组配起来,而是 分散在各处,检索时才与检索者所用的若干个标识分别匹配。这种系统才称为后 组式检索系统。计算

23、机检索系统一般都是后组式检索系统,手工检索系统则多为 先组式检索系统。(3) 按照检索语言所适用的学科范围可分为综合性语言、多科性语言、专业性语(4) 按照检索语言适用的地区范围可分为国际语言、国内通用语言。(5) 按照检索语言适用的机构范围可分为各类文献信息机构通用的语言、某类文 献信息机构专用的语言、某一文献信息机构专用的语言。(6) 按照检索语言适用的文献信息类型可分为多类型文献信息适用的语言和某一 类型文献信息专用的语言(如专利分类法)。(7)按照检索语言所适用的检索系统可分为手工检索工具适用的语言、计算机检 索系统适用的语言。另外,由于检索语言都是利用各种通行文字来表达概念的,所以检

24、索语言有单语 种语言、双语种语言、多语种语言之分。单语种语言又可按自然语言的语种细分, 因为它们还会带有各种自然语言的某些特点。在上述划分检索语言类型的角度中,按构成原理分是最基本的,按标识的组合使 用方法分也很重要,这是决定检索语言性能的两个重要因素。32 分类检索语言321 分类检索语言的基本原理分类语言的具体表现形式主要是分类表(分类语言的词典),但规定分类标引规则 的使用说明或手册也是一个必要的组成部分。由于用分类表和分类规则来标引、 组织、检索文献信息的方法被称为分类法,所以习惯上将某种分类语言称为分类法。目前使用最广泛的一般是先组式的分类法,称为体系分类法或等级列举式分类 法。 &

25、#0;体系分类法是一种直接体现知识分类的等级制概念标识系统。它是对 概括文献信息内容及某些外表特征的概念进行逻辑分类(划分与概括)和系统排 列而构成的。体系分类法的主要特点是按学科、专业集中文献,并从知识分类角 度揭示各类文献在内容上的区别和联系,提供学科分类检索文献信息的途径。由于人们一般都是在某个专业范围内从事科研、生产、教学、管理等活动的,习 惯于从学科、专业出发去获取知识和信息,而体系分类法对于有系统地掌握和利用一 个学科或专业范围的知识和信息来说,是很方便和有效的,因此,它成为一种对 文献信息进行系统化处理的重要方法,成为一种历史最久、使用最普遍的检索语322 中国图书分类法一部完整

26、的分类表,大体可分为下列几个组成部分:1编制说明包括分类表的编制经过,所依据的编制原则,部类及大类的设置及其理由,对各 种分类问题的处理办法、标记方法、使用方法等,可以让使用者对分类表有一个 初步的全面的认识。2类目表 类目表是分类法的主体,它决定分类号的含义,是选用分类号表达文献信息内容 和检索课题的主要依据。各种具体的分类法,其类目表的结构不尽一致,但都是 由大量的类目以并列关系和等级关系为主组成的分类体系。以我国的中图法 为例,它的类目表就是由基本大类、简表、评表和复分表组成。 基本大类是分类法中的第一级类目,是对一定学科领域的基本划分。中图法 共 有 22 个基本大类。 简表,又称基本

27、类目表,是分别对每个基本大类,依据它的某些属性,作若干 次逐一划分后得出的类目表,起承上启下的作用。一部大型分类表由于其详 表(正文)的类目很多,在线性排列的情况下,不易掌握整个分类表的内容,在 查表时可以从简表人手,由简表再转查详表,不致迷失方向。简表也可供简略分 类之用,简表一般列出第一、二、三级类目。 详表,又称主表,是分类表的正文,由简表进一步逐级展开划分而成。主表由 类 目、分类号和类目注释三部分组成。类目是分类法的“语词”,它限定着所表达的事物概念的内涵和外延。分类号是类目的代号,是分类标识的具体形式。它简明、易于排列,有时还反映 类目的层次。分类号可以用一种号码(如数字或字母)组

28、成,也可由两种符号混合 组成。分类 号的构造方法可分为;层累制,即分类号的位数与类目级别基本上 相对应,一位号码表示 一级类目,两位号码表示二级类目,如此类推;顺序制, 分类号是按类目的先后顺序(不 是等级)从小到大安排;、混合制,混合采用前 两种方法构成分类号。类目注释,是说明类目的含义、范围、使用规则等事项,以便正确理解和使用该 类目的文字。 复分表,又称辅助表,是供主表中某些类目共同细分而从主表中抽出的一部分 类目表。辅助表可分通用复分表和专用复分表。通用复分表都附在主表之后,专 用复分表则插在主表中的有关部分。例如中图法设有总论复分表、世界地区 表、中国地区表、国际时代表、中国时代表、

29、中国民族表等整个主表通用的复分 表。在主表内还有大量的专用复分表和依照复分类目。3索引根据标题法的原理,将类目及其注释改成标题形式,按字顺排列,并注明相应的 分类号。这样不仅可方便查表,而且还可将分类表中因为按学科分类而被分散的 同一事物不同方面的类目集中,使分类法在某种程度上兼有主题法的性能。4附录是文献分类标引中经常要查阅的参考资料,一般不属分类表的有机组成部分。一、分类法在信息存贮和检索中的应用范围1. (1)分类编排手工检索工具的正文(主体)部分分类目录:我国文献信息机构用于从内容角度提示所藏图书、期刊的目录。不管 所藏文献是印刷型还是机读型,均习惯以分类目录为主。依照分类号或加上书次

30、 号来排列文献著录款目就形成了分类目录。检索工具正文的分类编排:大多数文摘型或题录型检索工具的正文(文摘、题录) 部分是按分类编排的。大多数检索工具用来编排正文的分类体系和类号都较为简 单。例如,美国化学文摘(CA )的正文首先分为5个部(一级类目):生物化 学、有机化学;高分子化学、应用化学和化学工程、物理和分析化学,这5 个部 不用号码表示;每个部再细分出肋个二级类目,并依顺序编类号为 1 至 80。美 国生物学文摘(BA)的正文分为84个类(不再细分),不编类号,而按类名的 字顺排序。(2)检索工具中的分类索引由于大多数检索工具的正文已按分类编排,因此,检索工具的辅助索引中,提供 分类索

31、引的不多。但是在专利文献的检索工具中,用特定专利分类法(如国际 专利分类法 ) 编制的专利分类索引是一个重要部分。例如美国生物学文摘 的“生物分类索引”和 “类屉索引”,就是按生物分类体系编制的。(3)计算机检索数据库的分类号字段在一部分供计算机检索的数据库记录中设有分类号字段,提供分类途径检索。323 国外图书分类目前,国际分类法中较为著名的、尚在使用或有很大影响的主要有五部,见表 3-2-1。表 3-2-1 国际常用分类法分类法名称简称主编杜威十进分类法DC 或 DDC(美)杜威国际十进分类法DDC(比)奥特勒等美国国会图书馆分类 法CC美国国会图书馆编目 组冒号分类法LC(印)阮冈纳赞书

32、目分类法BC(美)布利斯这些分类法从它们的体系结构,可以归纳为三种:1等级列举式采用尽量列举所有类目形式,并将这些类目组成一个等级系统,故又称为体系分 类法,如DC、IC属于这种类型。2分面组配式CC即属于这种类型,采用简单概念组成复合的方式,在类表里只列出不同范畴 概念,用组配方法来表达具体类目。3列举、组配复合体系即在列举类表里大量运用了组配式的分配原则,是介于列举和组配之间的一种折 中的形式,如UDC、BC都属于这种类型。在上述几种分类法中,流行最广、影响最大的是DC,在科技情报界用户最多的 是UDC,对当代分类法编制理论及技术影响最大的是CC。下面是以杜威十进分 类法为例介绍等级列举式

33、分类法的体例:杜威十进分类法(DC)受培根知识分类的影响,将全表分为十大类,其基本大 类如下:000 总论 500 自然科学100 哲学 600 技术科学200 宗教 700 美术300 社会科学 800 文学400 语言学 900 史地其类目展开情况如下(技术科学类类目):600 技术科学620 工和学621 机械工程01 工程热力学1 蒸汽工程2 水利工程3 电利工程31 电利的发生DC 的特点是:(1)在分类表上第一次用号码代表类目;(2)采用小数标记制使类 目级纵向无限扩充;(3)首次运用组配的方法(复分表)。由于它具有以上特点, 解决了排架和组织目录的次序问题。它在世界上已用 30多

34、个语种出版,被世界 135 个国家和地区的图书馆采用,已载人各国的机读目录、在版编目数据及印刷 卡片之中。324 国际专利分类随着科学技术的迅速发展,记载有最新科技成果的专利文献每年以超过 100万件 的速度增长着。专利文献是一座蕴藏着人类智慧的技术宝库,也是技术领域中专 利保护信息的唯一源泉。为了迅速而有效地从如此庞大的专利文献中检索到所需 要的技术信息和法律信息,必须熟悉掌握国际专利分类法(InternAtionalPat ent Classifica tion,简称IPC)。国际专利分类表是根据1971年签订的国 际专利分类法的斯特拉斯堡协定编制的,本套分类表,是根据世界知识产权组 织1

35、994年出版的(第六版)国际专利类表,于19951999年使用。1IPC 的结构体系及使用国际专利分类法共分9个分册,表3�1 �2列出了 IPC分类表的部及分 部。表 3-2-1 IPC 分类表部分部A人类生活需要农业、食品、烟草、个人和家庭用品、健康、与娱 乐B作业运输分离和混合、成形、印刷、运输C化学冶金化学冶金D纺织纺织和其他类不包括的柔性材料、造纸E固定建筑物建筑物、挖掘、米矿F机械工程、照明发动机与泵、一般情况、照明与加热、武器、爆破C物理仪表、核子学H电学使用指南包括大小类、及大组的索引A-H8 个分册,其编排结构相同。使用指南是使用国际分类表的指导性文件, 它对国际

36、专利分类的编排、分类原则、分类方法和分类规则等做了详细说明,可 以帮助使用者正确地使用国际专利分类表。大组索引包括6 千多个大组的类 目,它将上述 8 个分册的大组集中编入分册,使用者可以首先利用这个分册找到 合适的大组,然后再利用其 8个分册找到合适的小组,这是一种比较迅速的查找 方法。2IPC 逐级展开原理A 生活必需品 ( 部 )健康与娱乐 (分部)A63 体育竞技娱乐 (大类)A63H 玩具 (小类)A63H300 玩偶 (主组)A63H336 零件,附件 (一级分组)A63H338 玩偶的眼睛 (二级分组)A63H340 会动的 (三级分组)A63H342 眼睛的制造 (三级分组)I

37、PC 的分类号采用字母数字混合制以及层累制与顺序相结合的编号制度。“部” 用大写英文字母A�H表示,共分8个部。部下有分部,但无标记符号。分部 下设有大类,用阿拉伯数字表示。大类下的小类用英文字母表示。小类下的主组 用阿拉伯数字表示。斜线后的数字表示分组。从“部”到主组是层累制编号,分 组以下是顺序制编号。分组之间的等级关系由类名前面的错位圆点来表示。斜线 后面的数字如果是一个 3 位数或 4 位数,应注意其读法和排列方法。比如, 3/426 应读为:3/42.6,排在 3/42 与 3/43 之间, 5/1185 应读为:5/118.5,排在 5/118 与 5/119 之间。IPC

38、分类表中的类目名称(特别是小类以下的类名)往往采用定义式类名。例如, “活性碳”所在类的名称为“选择性吸收的固体”;“眼压计”所在的名称为“测 试眼睛的设备”。主要是因为技术发明是层出不穷和难以预见的,而且立类原则 又以功能分类为主,所以类名不随意使用现有的事物名称,而是尽量采用定义性 文字,这样可以使类目具有更好的包容性和适应未来的发展。33 标题词语言标题语言,又称标题法、标题词法、标题词语言、传统主题法。它是以受控的自 然语言语词作标题(标题语言的标识),以先组方式直接表达文献主题或检索课 题,用参照系统间接显示标题之间的关系,以事物为中心聚集文献信息,提供字 顺检索途径的一种检索语言。

39、标题语言是主题语言中最早出现的一种语言,目前仍在一定范围内使用。例如, 美国 国会图书馆标题表(Library of Congress Subject Headings,简称 LCSH)是国内用于组织 西文图书的主题检索工具(系统),提供主题检索途径的一 种著名标题语言;美国化学文摘(CA)的“索引指南” (Index Guide)是编制 和检索CA的“化学物质索引”和“普遍主题索引”所依据的标题语言。标题语 言的主要优点是标识系统直观易懂,易扩充,表达主题直接性和专指性强,组配 固定,可减少误差,能较好满足特性检索的要求,但也有系统性差、不便于族性 检索、表达概念时缺乏灵活性、难以表达较深主

40、题概念等不足。标题语言的具体表现形式主要是标题表。标题表是标题词的汇编,是对文献进行 标题标引和主题检索的依据。331 标题表的结构一部标题表一般有下列三个组成部分: 编制说明:包括标题表的编制经过、收录标题词的学科或专业范围、选词标准、 规范化措施、标题形式、参照系统、词款目著录格式、各种符号的意义、标引规 则、标题款目排列法等。 主表:是标题表的正文,包括全部标题词和非标题词,并有参照和注释,按字 顺排列。 副表:相当于体系分类表中的各种复分表,可利用它们对标题进行细分,所以 也叫标题细分表、细目表和子标题表。副表如分类表中的复分表那样,分为通用 的和专用的。通用副表有地区细分表、时代细分

41、表、文献类型细分表等。专用副 表有地方标题细分表、人物标题细分表、机构标题细分表、著作标题细分表、产 品标题细分表、人物标题细分表等。副表中的细目,一般只能作为副标题和标题 限定词。地区副表中的国家细目,也可构成主标题。332 标题及其类型 标题(标题词)是作为主题标识的经过规范化的语词或事物的“名”,是指主题标 识的具体字面。标题法是按事物集中有关文献的,因此,在一个标题下,常常 集中了关于一 种事物的许多方面的资料,涉及到相当于分类法中的好多个类目 的范围。例如,在“羊” 这个标题下,就可能包括羊的生理、解剖、遗传、选 种、育种、繁殖、饲养管理、育肥、饲料、放牧、疾病及其防治、用途以及畜牧

42、 经济等方面的资料。这些资料,如果集中在同 一个标题下而不加区分,对检索 也会造成困难,导致甄别量增加,使检准率降低。所以,同一标题下的内容有细 分的必要。为了对同一标题下的内容加以细分,为了一些其他目的(如集中同族事物),在实 践中采用了一些不同的方法,形成了标题的不同类型。 单级标题。即一个标题仅由一个名词术语构成。它可以是一个单词,称单词标 题或元词标题(如“肠”);也可以是一个词组,称词组标题或复词标题(如“肠 梗阻”),但都只有一级,所以称为单级标题。有些标题系统只采用单级标题形式。这种标题系统的优点是比较简单,缺点是专 指性 差,在一个标题下往往集中资料太多,不便检索。补救的办法是

43、多用复词 标题,以稍增专指度。 带说明语的单级标题。例如,“液压传动,用于机床的”;“期刊,化学的”。 这相当于一个复词标题。用说明语表达复杂概念比较自由,既能表达事物的特称, 也能表达事物的方面,可以达到较高的专指度;但比较冗长,排列次序不够明确。 多级标题。即在标题下再加标题。例如,“肿瘤��治疗”。横线后的标 题称为子标题,用于表示该标题所表示事物的某一方面。子标题之下还可以有子 标题,称为次子标题。次子标题下还可以有子标题,称为再次子标题。但一般来 说,超过三级的标题形式是很少用的。各级子标题可统称副标题,第一级标题则 称为主标题。子标题、次子标题都必须是规范化的语词,这是

44、区别于说明语的地 方。子标题、次子标题的形式比较简明,有明确的排列位置,使同一主标题下的 资料比较有系统。此外,还有倒置标题、带限定词的标题和混合标题等多种标题类型。三、标题法在信息存贮和检索中的应用范围 按标题字顺组织卡片式馆藏图书目录。这在国外曾经很普遍,但现在已逐渐被 机读目录取代。我国一些图书馆20世纪50年代以前曾用LCSH组织西文图书主 题目录, 90年代以来,LCSH的使用重新受到重视。 按标题字顺组织检索工具的正文,这种使用方式也很少。但美国的工程索引 (Ei)1993 年之前就是这样使用的,现在已改为按单个叙词(单词或词组)编排。 用于编制检索工具的字顺主题索引。这曾是标题法

45、使用比较多的一种方式,但 现已用得不多。Ei以前的主题索引是用标题语言编制的;美国BA的概念索引实 际上是标题索引, CA 的“普通主题索引”和“化学物质索引”也是标题索引。 构造计算机检索数据库中的主题字段,但其使用方式也趋向叙词语言化。总之,标题语言在编制和使用上,一方面向叙词语言靠近,另一方面又可用叙词 语言来代替(即用若干叙词组合成一个标题)。因此,真正意义上的标题已使用得 不多。像工程索引的正文和主题索引均已改用叙词语言。34 关键词语言341 关键词与非关键词表关键词是指文献的题名、文摘甚至正文中出现的、能够表达文献信息内容的重要 语 词。用这些词来表达文献信息内容,并编成关键词索

46、引,提供检索途径的 方法称关键词法。关键词法一般不编关键词表,而是相反,编制“非关键词表”或称“停用词表”。 非 关键词表是将没有检索价值的词,如介词、连词、冠词、代词、感叹词、某 些副词、某些形容词、某些名词(如“理论”、“报告”等)、某些动词(联系动 词、情态动词、助动词)等,收集起来编成的词表,它是供计算机据以自动排除 题名、文摘中的非关键词,从而产 生关键词。342 关键词法的特点关键词法的特点主要有:采用语词作概念标识,直接从文献题名或文摘、正文中 抽取关键词;不编制受控词表,进行词汇控制,不显示词间关系;进行轮排,建 立字顺排序体系。主要适用于电子计算机处理和自动标引。主要优点是标

47、引要求 低,操作简单,比较容易实现;关键词是自然语言,表达文献主题较直观;参加 轮排的每一关键词都是检索入口,可提供较多的检索途径;易于实现自动化,标 引速度快。采用关键词法的检索系统是时差最短和最经济的检索系统。主要缺点 是词汇质量较粗糙,影响文献检索的查全率和查准率。343关键词索引的类型关键词法的原理得到了广泛的应用,出现了多种关键词索引形式,大体可分为两 类:一类是带上下文的关键词索引,包括题内关键词索引、题外关键词索引、双 重关键词索引;另一类是不带上下文的关键词索引,包括单纯关键词索引、词对 式关键词索引和简单关键词索引。1题内关键词索引 题内关键词索引也称上下文关键词索引。这是最

48、早出现的一种利用电子计算机编 排的索引,实现了索引工作自动化。这种关键词索引是将文献标题中的关键词和 非关键词都保留,并保持标题原文的词序,使每个关键词都有一次机会轮流排到 作为检索词的固定位置(中栏开头),将处于检索词地位的关键词按字顺排列起 来,每条款目附文献地址(该文献在文献题录部分的地址)。这样的索引与文献题 录结合起来便成为一种检索工具。比如美国化学题录索引。有些题内关键词索引除文献标题外,还从文摘和正文中抽取关键词作为补充,弓 起参加轮排。比如美国生物学文摘的题内关键词索引。2题外关键词索引它与题内关键词索引的区别是将关键词的检索位置放在题名之外(左方或左上 方)。3词对式关键词索

49、引此索引是将关键词进行两个配对,一个作主标目,一个作副标目,可以相互交换 位 量。美国的科学引文索引的“轮排主题索引”就是词对式关键词索引。4纯关键词索引纯关键词索引是指索引标目中只有若干关键词,不保留非关键词的关键词索引。5简单关键词索引简单关键词索引是只用一个关键词作标目的关键词索引。如美国化学文摘的 索引。使用关键词检索与使用叙词进行检索的最大不同是检索词是检索者所想到的用 来表达检索课题的任何词,而不必经过词表核实。因此,使用关键词进行检索的 关键是检索者应该尽可能多地想出表达检索课题的词,并按字顺进行检索;查到 某个关键词时,尽量准确判断包含该词的索引款目的含义与检索课题的相关性。3

50、5 叙词语言叙词语言,又称叙词法、主题词法。它是 20世纪 50 年代后期为适应计算机检索 需要而发展起来的,在综合了其他多种检索语言原理方法的基础上,以后组式概 念组配(不同于字面组配)为基本原理而创制的检索语言。它已成为当今检索语言 的主流,许多检索系统(工具)采用的是叙词语言。351 叙词语言的构成原理叙词法吸取了多种检索语言的原理和方法,包括: 它保留了单元词法单词组配的基本原理。 采用了组配分类法的概念组配来代替单元词法的字面组配,以及适当采用标题 法的预先组配方法(即采用词组),以克服某些词分拆后再组配时产生意义失真的 缺点。 采用标题法对语词进行严格规范化的方法,以保证词与概念的

51、一一对应。 采用并进一步完善了标题法的参照系统,采用了体系分类法的基本原理编制叙 词分类索引(范畴索引)和等级索引(词族索引),采用了与关键词法类似的方法编 制叙词轮排索引,从多方面显示叙词间的相互关系,以保证准确、全面地选用叙 词进行标引和检索。由此可见,叙词语言是多种检索语言的原理和方法的综合,它力图取各法之长而 避各法之短,体现了检索语言的发展趋势。叙词语言按其基本性质,是一种采用 表示单元概念的规范化语词的组配来对文献信息内容进行描述的后组式词汇型 标识系统。概念组配是叙词法的基本原理。在叙词法所采用的多种检索语言原理和方法中, 概念组配是决定着它的特点的基本原理。概念组配与字面组配在

52、形式上有时相同,有时不同;而从性质上来说,两者区别 甚 大。字面组配,其实质是词的分拆与组合(拆词);概念组配,其实质是概念 的分析与综合(拆义)。两者的检索效果有很大差异。例如:字面组配 概念组配脑+肿瘤一脑肿瘤 脑十肿瘤一脑肿瘤河北+梆子一河北梆子 河北地方剧+梆子一河北梆子香蕉+苹果一香蕉苹果 香蕉+苹果一?香蕉味食品+苹果一香蕉苹果在以上三例中,第一例“脑”和“肿瘤”两词的组配,无论是字面组配还是概念 组配,其结果都是“脑肿瘤”。 “脑肿瘤”既是“脑”的下位概念(一个方面问 题),也是 “肿瘤”的下位概念(种概念)。所以,如果用单个词来检索的话,无 论用“脑”,还是用“肿瘤”,“脑肿瘤

53、”的文献都不会被漏检和误检。用两个 词组配检索,也不会产生误差。第二例“河北”和“梆子”两词的组配,情况也差不多。但如果单用“河北”一 词检索,范围就太广泛。不如用“河北地方剧”一词更符合概念组配原理,也更 切合实际的族性检索要求。第三例“香蕉”和“苹果”两词的组配则不然。根据字面组配原理,“香蕉”和 “苹果”的组配是“香蕉苹果”;而根据概念组配原理,这两个词的组配结果应 是指“一种香蕉和苹果的杂交品种”,而这样的品种是不存在的,即不符合概念 逻辑。如果关于“香蕉苹果”的文献用这两个词来组配标引,则在用“香蕉”这个词单独进行检索时, 就会产生误检,因为“香蕉苹果”并不是“香蕉”的一种;而如果用

54、“香蕉”和 “苹果”两个词组配,则又可能把兼论“香蕉”和“苹果”的文献检出,但该文 献却没有论述“香蕉苹果”。 所谓“香蕉苹果”实际上是一种“香蕉口味的苹 果”,按照概念组配的原理,这个概念应当用“香蕉味食品” (或“香蕉味水果”) 和“苹果”两个词来组配表达,才符合概念逻辑。无论用哪两个词来分别检索或 是组配检索,都不会产生误差。字面组配与概念组配之所以发生差异,有时一致,有时不一致,是由于构词方法 是多种多样的,有些构词方法与概念逻辑相吻合,而有些则不相吻合。许多词组 是不能分拆或不能随便分拆的。如果简单地把它们拆开,往往有一方不能独立(不 具备检索意义)或会失真。由此可见,严格遵守概念组

55、配原则,是使叙词法具有 优异性能和高度质量的主要保证。352 叙词表的结构叙词表是提供用作标引和检索的叙词并显示其语义关系、族性关系和使用规则的 词汇表,有时又称“主题词表”,是叙词法的具体体现和进行词汇管理的工具。 第一部用于信息检索的叙词表是美国杜邦公司于 1959年前后编制的。目前世界 上有 500 多种叙词表, 中国有 60 多种叙词表,比如汉语主题词表。叙词表主要由编制使用说明、主表、附表、辅助索引等几个部分组成。1叙词宇顺表叙词字顺表一般是叙词表的主表,它是将叙词和非叙词完全按字顺排列,并有标 注事项和显示词间关系的参照系统。利用这种排列表可不考虑概念之间的隶属关 系,而仅从表达概

56、念的语词的字面形式出发,直接地找到相当的叙词;或再通过 参照系统,从该词的上下左右间接地找到更恰当的叙词。2附表有的叙词表,如汉语主题词表,将一些专用叙词,如地理和区域名称、组织 机构名称、人物名称等叙词款目独立按字顺编排,作为附表。其结构和功用与主表完 全相同,都是标引和检索选择叙词的最终依据。3辅助索引 为了查词方便,并以多种方式展开叙词之间的关系,叙词表一般都编有下列一种 或几种辅助索引。 叙词分类索引,也称分类表或范畴索引,是一种重要的辅助索引。它是将叙词 按其概念所属学科或范畴分成若干大类,在大类之下再分成若干小类,在小类之 下则将叙词按宇顺排列,形成一个类似体系分类表的概念分类系统

57、。这种索引便 于从学科或专业的角度来选用叙词,可使叙词法在某种程度上具有分类法的性 质。 叙词等级索引,也称族系表或词族索引。它是利用概念的等级关系(概念成族 原理)将叙词汇集在一起成为一族,构成一个从泛指叙词到专指叙词的等级系统, 可以从一族中外延最广的叙词(族首词)出发,找到一系列同族的叙词,并且可以 明确它们之间的层层隶属关系。这种索引可弥补主表族性检索功能差的缺点。 叙词轮排索引,又称轮排表。它是利用字面成族的原理,将有相同单词的词组 叙词汇集在一起,排列在该单词之下,从而可以查出含有该单词的某一个或全部 词组叙词。一个词组叙词由几个单词构成便可轮排几次,在几处都能查到它。这 种索引的

58、功能类似词典,查找比较方便。在某种程度上可以弥补叙词法族性检索 功能差的缺点。 叙词双语种对照索引。它是将主表中词与其外语译名相对应,提供从外语词字 顺查找主表叙词的一种索引。例如汉语主题词表的英汉对照索引。 专有叙词索引。如地区索引、人物索引、机构索引、产品索引等。这些索引一 般与主表不重复,实际上是主表的一个组成部分。将这些专有叙词单独编成索引, 可避免主表庞大,方便查找。此外,有些叙词表还有正式叙词索引和款目词索引、叙词关系图等辅助索引。上述辅助索引并不是每种叙词表都具有。叙词表的结构体系随其学科或专业范 围、所用自然语言的语种、收词数量等不同而变化。三、叙词语言的应用范围 我国的文献信

59、息机构用来组织图书主题目录。这实际上是作为标题语言的代替 品来使用。 用于编排检索工具的正文。这种使用方式不多见,但现在的工程索引(Ei) 正 文编排是使用这种方式的典型。 用于编制检索工具的辅助主题索引。 在计算机检索的数据库记录中构成主题字段,提供主要检索途径。此时,每个 叙词都可以成为检索人口,表达同一主题的不同叙词之间可以响应这些叙词的不 同组配方案的检索课题。这是越来越普遍的使用方式。总之,叙格词法既适用于手工检索系统,又适用于计算机检索系统,是目前检 索效率较高的情报检索语言。36 信息检索语言的发展趋势361自然语言的应用是当今信息检索领域的一种重要发展趋势 随着计算机在文献信息

60、部门以及其他行业应用的日益普及,自然语言检索正在我 国流行起来。自然语言的应用是以计算机检索为前提的,不使用计算机,自然语言的检索就难 以实现。促使自然语言在我国流行的原因,除了计算机应用的日益普及所创造的各种条件 以外,还有: 自然语言检索本身的某些突出优点。 国外自然语言的应用已相当广泛,国外的检索技术可供借鉴;国内以汉语分词 技术为主的自然语言研究的进展;某些提供自然语言检索功能的软件的商品化。 许多单位急于开发文献资源,为了尽快建立数据库,在既缺乏标引力量和充足 投资,也无充裕时间按分类表和词表作仔细标引,又希望数据库成本和定价较低 的情况下,单用自然语言虽不能达到高检索效率,但可能是

61、较为可行的选择。或 者,在进行人工标引的同时,也提供自然语言检索途径,使数据库更完善,使用 更方便。 国际互联网络和联机检索网络环境。国外数据库现在一般都具备自然语言检索 功 官能。可以说,自然语言的应用是当今我国信息检索领域的一种重要发展趋 势。自然语言在信息检索中应用的方式很多,其中无标引的文本关键字词匹配检索是 自然语言检索最普通的方式。所谓文本关键字词匹配检索,是指数据库中存贮的是文本(文献全文或摘要或论 文题名),不进行任何标引,检索时则用检索者认为合适的关键性字词,在文本 中进行匹配查找,检索表达式可以由词、词的片断或若干词的组配构成。362受控语言将与自然语言紧密结合,信息检索语

62、言将向易用化方向发展 信息检索语言的易用化,既包括对标引人员的易用性,也包括对检索用户的易用 性。易用化,主要是信息检索语言自然语言化、智能化的过程。“傻瓜词表”概 念的提出,就生动反映了信息检索用户对检索语言易用性的要求。易用化程度越 高,对信息检索语言的功能要求越高,大量的词汇控制、转换等工作将交给计算 机后台处理,而交给用户的是直观、易学、易用、智能化的前台。值得引起注意的是:有效的信息检索必定是受控的。正如张琪玉教授指出的:信 息检索过程绝对不能没有控制,信息检索语言的控制原理将依然被保存,但将来 的控制模式不再会是现在的控制模式。随着自然语言的流行,传统的信息检索语 言受到严重的挑战,于是有人认为自然语言必将取代信息检索语言,其实这是一 种片面的认识。自然语言在语词检索、事实检索等方面的确有独特的功能,有利 于快速开发数据库产品,但无控制的检索的代价是检索效率大大降低。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!