信息检索第3版课件第13章信息检索概述信息检索的理论与方法信息检索工具和数据库.pptx

信息检索是“指知识的有序化识别和查找的过程。广义的情报检索包括情报的存储与检索,而狭义的情报检索仅指后者”。(《图书馆学百科全书》)

“信息检索是从任何信息集合中识别和获取信息的过程及其所采取的一系列方法和策略。(武汉大学,《信息检索》)RicardoBaeza-Yates等认为,“信息检索是对信息项进行表示、存储、组织和存取”。这里在信息后面加了“项”字,并将“存储”细化成“表示、存储、组织”。2.全息检索说

随着计算机技术、网络技术、人们信息需求等的迅速发展,信息检索领域不断出现新的分支和内容,如:基于内容的多媒体(multimedia)信息检索、多语种、跨语种信息检索和交互性信息检索等。1.3信息检索的研究内容、研究方法和作用1.3.2信息检索的研究方法

本章概述了信息、信息资源和信息检索的基本概念,着重讲述了“信息”一词的起源、含义及现代各学科对信息定义的不同理解,信息资源与信息的异同,作为重要信息资源的文献信息,如图书、期刊、报纸、学位论文、专利等;在此基础上,分析了信息检索的不同定义,讲述了信息检索的各种类型及信息检索的研究内容、研究方法、作用和发展趋势。课后思考题1.比较信息、信息资源、知识、情报、文献概念的异同。2.知识理论包括哪些主要内容?3.评述记录信息资源与文献信息资源、网络信息资源的特点。4.信息检索、文献检索、情报检索有何联系?5.信息检索的研究内容和方法主要有哪些?6.信息检索的发展趋势还有哪些?7.结合本人专业实际,简述信息检索在提高信息素养方面的作用。8.大数据环境下,信息检索面临哪些挑战和机遇?9.人工智能技术在信息检索中有哪些应用?第二章

信息检索理论与方法

第二章

海量而杂乱的信息如何才能被控制,如何才能被有序化,如何才能被快速而准确地检索出来?这里涉及信息的整理、加工和利用等基本问题。遵循一定的科学原理,按照一定的科学方法,将信息内容和形式特征较准确地描绘出来,利用各种标识符号标记出来,并以人工或机器容易识别的方式把信息组织起来,就能够为信息检索提供必要的条件。根据信息需求提问和已被有序化了的信息库的情况,优化检索途径、步骤和检索词及检索式,就能快速、准确地获取所需要的有用信息。有关知识构成了信息检索理论和方法的一些主要内容。掌握这些内容,不论是对手工检索还是对机器检索来说,都是非常重要的。教学目标通过本章学习,掌握以下内容:信息检索的原理与方法信息资源的标引方法信息资源的著录方法信息资源的排检方法12342.1信息检索的原理与方法2.1.1信息检索原理

1.信息检索的一般原理2.1信息检索的原理与方法2.1信息检索的原理与方法2.1信息检索的原理与方法2.1.1信息检索原理2.信息检索的特征

在检索语言方面,检索词表作为检索语言的核心,自身编排具有很强的逻辑性;在检索策略方面,检索策略要求加强检索提问的逻辑处理与查找步骤的科学安排。在检索系统的用户界面上,系统要根据实际情况选择特定的逻辑进行动态控制,减小检索的不确定性。信息检索的逻辑性

信息检索的不确定性可以从两方面得到反映:一是信息存储过程中标引的不确定性;二是信息检索中的不确定性。信息检索的不确定性要求必须完善信息检索系统和检索策略。信息检索的不确定性2.1信息检索的原理与方法2.1.1信息检索原理3.信息检索系统与信息检索语言(1)信息检索系统

对特定检索系统收录什么范围的文献信息做出抉择,决定检索系统文献信息内容检索语言和名称规范子系统

对文献存储和检索两个过程中的文献信息特征和检索提问特征的语言形式做出规定。标引著录子系统

在分析和选取文献信息的内容和形式特征基础上,根据具体的检索语言和名称规范,选择准确的文献信息标识。查询子系统

将检索用户的需求进行分析,并根据具体的检索语言和名称规范确定检索标识、构造检索式。交互子系统

通过同用户商谈收集反馈信息,弄清用户的真实需求,形成明确的检索概念,并将它准确地表达出来。匹配子系统匹配子系统将文献信息标识与检索标识进行相对性比较。完整的信息检索系统主要由文献选择、信息检索语言、文献标引、信息查找、用户与系统交互匹配六个子系统组成。2.1信息检索的原理与方法2.1.1信息检索原理3.信息检索系统与信息检索语言(2)检索语言由于文献数量多,信息内容包罗万象,用户需求又各不相同,因而这种对应关系或通信联系的正确形成必须依赖统一的交流语言,以此来描述文献和信息内容的特征,同时描述用户需求的特征。只有两者采用共同的语言,才能使文献特征的标识与需求特征的标识彼此对应,互相联系起来,完成检索的标识匹配过程,达成信息的创造者与使用者之间的信息交流。2.1信息检索的原理与方法2.1.2信息检索方法

检索要求是指准、快、全。这三者之间是互相制约的,难以兼得。若要求以“全”为主,则应采用顺查法或循环法;若要求以“准”为主,则应采用倒查法;若要求以“快”为主,则应采用抽查法。

总之,在实际检索中,究竟采用哪种检索方法最合适,应根据检索条件、检索要求和检索背景等因素确定。检索背景是指待查课题所属学科的发展情况,即该学科从何时开始研究、何时研究达到高峰、何时研究处于低谷等。若能准确地知道此背景情况,可采用以抽查法为主的检索方法。2.1信息检索的原理与方法2.1.3信息检索途径2.1信息检索的原理与方法2.1.4信息检索步骤

信息检索步骤就是根据既定课题要求,利用检索工具查找有关信息资料的具体过程。实际上,信息检索是信息检索策略的具体化,包括信息需求分析、检索系统(数据库)选择、检索词确定、检索表达式构造与提交、检索结果显示与优化等(如图2-5所示)。2.1信息检索的原理与方法2.1.4信息检索步骤1.明确信息检索需求2.1.4信息检索步骤2.选择检索系统2.1.4信息检索步骤3.确定检索词检索词是表达信息需求和检索课题内容的基本单元,也是与系统中有关数据库进行匹配运算的基本单元。检索词选择得恰当与否,会直接影响检索效果。表示主题的检索词如标题词、单元词、叙词01表示作者的检索词从信息单元的题目、正文或摘要中抽取的能表征信息主题内容的具有实质意义的词语,它是未经规范化处理的自然语言词汇,又称为自由词。02表示特殊意义的检索词如ISBN、ISSN、引文标引词等。04表示分类的检索词如分类号03检索词的选择与确定主要遵循下列两个原则:

第一,根据检索课题涉及的学科专业和技术内容选词。第二,对检索词进行处理。2.1.4信息检索步骤4.构造检索表达式

检索表达式是检索策略的具体体现,是计算机程序实现自动检索的依据。

在信息检索系统中,有的信息检索需求非常明确,其表达式就比较简单,通过系统提供的菜单就可以完成,如作者="袁隆平";

期刊名称="中国图书馆学报"等。

但有时信息检索需求比较复杂,就需要通过使用布尔逻辑算符、位置算符、截词算符、限制符等来构建检索表达式,将检索词进行组配,确定检索词之间的概念关系或位置关系,准确地表达课题需求的内容,以保证和提高检索的查全率和查准率。2.1信息检索的原理与方法2.1.4信息检索步骤5.实施检索策略并进行结果分析(1)获取检索信息

利用图书馆馆藏目录获取原始信息;利用联机信息系统,用联机传递、E-mail、Fax或脱机邮寄的方式获取原始信息;利用网络信息系统,网上提出订购请求,获取原始信息;利用有关全文数据库,打印、下载原始信息等;利用学术搜索引擎、预印本系统、机构知识库等途径公开获取。6.检索策略的修改与完善

在检索之前,可以通过向专家咨询,查询有关的一次文献、词表和数据库指南等。反复分析、修改检索词,尽量减少不确定因素,正确表达信息需求。

在检索过程中,应充分利用“人机对话”的有利条件,随时根据检索过程中的信息反馈情况调整检索策略。在检索之后,对检索结果进行分析评价,并建立文档,为今后的检索积累经验。2.1.5案例分析1.以《科学引文索引》为例介绍信息检索的方法与途径检索Scientometrics上发表的期刊论文,就可以将其表达式确定为:PUBLICATIONNAME:("Scientometrics")Timespan:Allyears.Indexes:SCI-EXPANDED,SSCI,A&HCI,CPCI-S,CPCI-SSH,BKCI-S,BKCI-SSH,ESCI,CCR-EXPANDED,IC.检索结果2.1.5案例分析2.利用百度学术引擎检索标题中包含“大数据”,且2021年发表的中文期刊论文检索结果2.2信息资源著录法

所谓著录,是指在编制目录时,对具体文献的各种形式特征、内容特征及物质形态等进行分析、选择和记录的过程。

著录法就是关于如何进行著录的具体规定和具体做法,按照一定的方法和规则,对某具体文献或信息源的内容和形式特征所做的描绘就形成了一条款目或记录。

一条款目或记录是一种文献或一种信息源的高度概括和浓缩。有了款目或记录,才能对款目进行各种标引,才能在标引的基础上对款目进行编排,才能通过款目对庞杂的信息资源进行有序的组织和控制,才能进行有效的检索。

因此,著录出高质量的款目或记录是信息检索的基础性工作。常用的著录规则

本节主要从传统著录法、MARC和元数据三方面来介绍信息资源的著录法。《英-美编目条例(第2版)》(Anglo-AmericanCataloguingRulesversion2,AACR2)、《国际标准书目著录》(InternationalStandardBibliographicDescription,ISBD)和中国国家标准《文献著录总则》《西文文献著录条例》《连续出版物著录规则》等美国的USMARC(LCMARC)、中国的CNMARC、英国的UKMARC、国际图联的UNIMARC等传统著录机读目录元数据都柏林核心元素集(DublinCoreElementSet,DC,简称都柏林核心)著录规则2.2.1传统著录法

传统著录法是相对于MARC(机读目录)和元数据著录而言的,是指按照《国际标准书目著录》(ISBD)等标准和规则的要求统一进行规范化的著录,但著录方式是手工操作或利用计算机进行分项著录,形成规范的卡片目录,然后手工编排各款目的著录法。

文献著录的结果是款目。款目是揭示文献内容和形式特征的记录事项。

文献内容是指文献的学科内容,其基本特征主要从文献的正文获得,通过提要项和排检项的分类号、主题词反映出来。

standards[J].

Portal-LibrariesandtheAcademy,2015,15(4):699–717.ACRL.FrameworkforInformationLiteracyforHigherEducation[EB/OL].[2020-02-08]./acrl/standards/ilframework/.张蒂.基于ACRL《高等教育信息素养框架》的实践路径探讨——以南开大学图书馆为例

[J].图书情报工作,2017,61(1):47–55.周美立.相似性科学[M].北京:科学出版社,2004YuHB,LiuJG,LiuLQ,etal.Intelligentroboticsandapplications[M].Berlin,Germany:Springer,2019周坤玲.四足仿生机器人高速步态规划方法研究[D].北京:北京交通大学,2013辛希孟.信息技术与信息服务国际研讨会会议文集:A集[C].北京:中国社会科学出版社,1994宋健.制造业与现代化[R].北京:人民大会堂,2002全国信息与文献标准化技术委员会.文献著录:第四部分非书资料:GB/T3792.4—2009[S].北京:中国标准出版社,2010:3.国家环境保护局科技标准司.土壤环境质量标准:GB15616—1995[S/OL].北京:中国标准出版社,1996:2-3[2013-10-14]姜锡洲.一种温热外敷药制备方案:88105607.3[P].1989-07-262.2.2机读目录

机读目录(MARC)是计算机处理书目信息的先决条件,也是书目数据库赖以存在的基础。机读目录是指任何形式的计算机都可以阅读或识别的目录,包括美国国会图书馆开发的USMARC(MARCⅡ、LCMARC)和以此为基础研制的各种MARC格式,如我国的CNMARC(ChinaMARCFormat)、英国的UKMARC、国际图联的UNIMARC等。2.2.2机读目录

机读目录格式规定书目在数据机读介质上的表示和标识方法,包括机读记录的构成、各数据字段在机读介质上的总体安排与内容结构。

通用通信格式是以现有的、有影响的机读目录格式为蓝本来设计的。通用通信格式按通行范围的不同可分为国家通信格式、地区通信格式和国际通信格式三大类。国家通信格式是指通行于一个国家,如美国的USMARC、英国的UKMARC、加拿大的CANMARC、法国的MONOCLE、德国的MABI、日本的JapanMARC、中国的CNMARC。地区通信格式是指通行于一定的地区范围,如法语国家的InterMARC。国际通信格式是指国际范围内通用的,如UNIMARC、《通用通信格式》(CCF)。

通信格式的构成主要包括标准化的记录结构、内容标识符、记录内容和字符集与代码表。记录结构是书目记录在机读介质上的总体安排。按国家标准ISO2709的规定,一条机读目录记录应由头标区、目次区、数据字段区三部分组成,数据字段区又分为控制字段区和书目字段区。内容标识符是标识数据元素并为其提供附加信息的一套符号,包括字段标识符、指示符、子字段标识符。记录内容是编目条例规定的具体书目信息,如著者、题名、版本等。2.2.2机读目录

可变控制字段区

可变控制字段区是书目数据的一部分,列出记录的控制号、输入数据的性质等。可变控制字段没有指示符和子字段代码,由单个数据元素或若干固定位置的定长数据元素组成。

目次区列出记录中有哪些数据字段及其在记录中的位置,由计算机在输入时根据数据的实际情况自动计算、生成,包括若干固定长的目次字段。每个字段12个字符,由字段标识符(3位数字)、字段长度(4位数字)、字段起始地址(5位数字)三部分组成。2.2.2机读目录

USMARC按文献类型可分为图书、连续出版物、档案与手稿、计算机文件、地图、乐谱、视觉资料七种格式。由于这七种格式不是在一个总的统一格式之下制订的,因而各种格式之间仍存在不少差异。为了方便编目员的操作,尤其为了适应文献类型和载体形式多样化、复杂化的发展趋势,又推出了一体化的USMARC格式。它将七种格式容纳于一个统一的格式之中,统一定义字段、指示符和子字段,除了头标和006~008控制字段描述特定的文献类型,其他字段对于任何一种文献类型都有确定的定义。(1)USMARC的记录格式结构USMARC格式分成头标区、目次区、可变控制字段区、可变数据字段区四部分。每个字段的末尾有字段分隔符,每个记录最后一个字段的末尾有记录结束符。其格式结构为:2.2.2机读目录

可变数据字段区

一条USMARC记录至少必须包括如下必备字段:008字段(固定长数据单元)、084字段(分类法及其版本)、153字段(类号)、154字段(一般说明索引词)、753字段(非受控术语索引)。还包括根查、注释、索引词(字)及组号方法字段等。2.2.2机读目录

中国机读目录格式

1985年,国家图书馆(原北京图书馆)自动化发展部依据UNIMARC,制订了中国机读目录的通信格式;经过试用和修改,于1989年正式发布《中国机读目录通信格式》(MachineReadableCatalogFormatinChina,CNMARC);1993年至1994年,国家图书馆根《UNIMAR手册》制订了中国文化行业标准CNMARC(中国机读目录)格式和使用手册。CNMARC格式适合专著、连续出版物、测绘资料、乐谱、音像资料、计算机文档等文献类型,在结构上符合国际标准ISO2709,在字段设置上符合UNIMARC,并兼顾汉字文献与汉字信息处理的特点,增设了一些必要的字段与子字段。(1)CNMARC的记录格式结构

CNMARC的记录格式分为记录头标区、地址目次区和数据字段区三部分。每个字段的末尾有字段分隔符,每个记录最后一个字段的末尾有记录结束符。其记录格式结构为:2.2.2机读目录(2)CNMARC的记录头标及数据字段的说明

记录头标区(RecordLabel)

记录头标是根据ISO2709制订的对记录进行处理时所需的通用信息。记录头标出现在每个记录开头,是必备的和不可重复的,而且没有字段号、指示符或子字段标识。头标中的数据元素是由字符位置标识的,是定长数据,总长度为24个字符。字符位置规定从0到23。

地址目次区(Directory)

字段长度包括该字段全部字符:指示符、子字段标识、行文或代码数据及字段结束(分隔)符。字段起始字符位置是指该字段第一个字符处于数据字段区中的位置。每一个数据字段的第一个字符的位置为0。该字符在整个记录中的位置,由头标第12~16位的数字标明。

数据字段区(DataFields)为可变长数据字段,所含的信息有如下两种形式。数据(控制)字段(00-)结构;数据字段(01~999)结构。2.2.2机读目录CNMARC数据字段由10个功能块组成(如表2-10所示)。

元数据提供了对全球分布式信息的发现和存取,但不同的元数据在语义(元数据的概念实体的定义,如定义DC中题名或日期元素的含义)、语法(规定该元数据体系是如何被表达与描述的)和结构(描述了各元数据的概念实体,如DC元素之间的相互关系)等方面各具特色,因而在某种程度上影响了元数据的交互操作。而应用程序中对元数据的有效利用需要有关语义、语法和结构方面的通用协定。资源描述框架(ResourceDescriptionFramework,RDF)由此应运而生,为多种元数据的交互操作提供平台。

RDF是1997年10月万维网协会(WorldWideWebConsortium,W3C)正式发布的草案。RDF不仅是一个简单的元数据方案,还是一个能对结构化的元数据进行编码、交换和再利用的体系框架。这种结构通过对通常意义上的语义、语法和结构的支持,提供了各种元数据体系的互操作性。

(1)RDF的语法体系框架

RDF的语法体系框架可分为两层:RDF核心(RDFCore)和关系描述(UtilityRelations)。

RDF的核心定义比较简单,基于如下假设:任何一个可被标识的“资源”(Resource)都可以被一些可选择的“属性”(Properties)描述(如尺寸、名字、制作者等),每个属性的描述都有一个“值”(Value)。2.2.3元数据(2)RDF的关系描述DC基本元素集基于RDF的句法描述如图2-11所示。2.2.4都柏林元数据与机读目录之比较1.DC与USMARC的比较

DC元数据是用来描述、支持、发现、管理和检索网络资源的信息组织方式,其最大特点是数据结构简单,信息提供者可直接编码。USMARC是用于描述、存储、交换、控制和检索的一套机读书目数据标准,主要针对印刷型书本的描述,随着856字段的引入,也可被用来对电子文本进行描述。其数据结构严密,能很好地描述电子信息,且著录格式严格遵循AACR2有关规定,能确保数据元素组成具有统一性,有利于数据交换。2.2.3元数据2.DC与CNMARC的比较

DC与CNMARC都是著录信息资源特征和内容的基本规范,可以提供某一信息资源的完整的著录数据,是识别、分析、比较信息资源的基本依据。

(1)DC与CNMARC的联系

DC与CNMARC的联系主要体现在以下三方面。

完备性:都设置了完备的著录项目,可以比较完整地揭示某信息资源的基本特征。

规范性:都对著录的等级、标识及规范的使用做出了相应的规定,可以准确、方式一致地进行描述。

兼容性:都具有比较强的可扩充性、兼容性,可以充分满足各种信息资源著录的需要和在不同系统之间转换的需要。

DC与CNMARC作为信息资源著录的规范,二者是兼容的,在目前的描述框架下可以对各个数据集合进行兼容互换。2.2.3元数据(2)DC与CNMARC的区别

针对不同的著录对象,DC和CNMARC是在不同的技术环境下发展起来的两种著录规范,必然存在差异。CNMARC主要是针对传统文献著录和识别的需要设置的,其特点主要表现如下。

详尽性:著录项目设置充分,对传统资源特征的著录项目设置详尽,虽然也可以进行网络资源的著录,但针对网络资源的著录项目相对比较概括。

等级性:有明确的等级性、次第性,各著录项目有明确规定的次序和等级。

规范性:对著录的表达有严格要求,如对于外国作者名,要求按规定以直序或倒序的方式著录等。专指性:采用人工标识,适合专业文献单位使用,是一个以文献专业人员为处理主体的著录规范。2.2.3元数据DC的著录项目则根据网络资源的特点和需要,按照资源内容描述、知识产权描述、外部属性描述三种基本类型设置,项目的设立更加充分。与CNMARC相比,DC的著录规范的特点主要表现在如下几方面。

简明性:元素集的成分含义明确,易于理解,便于操作,同时具有机械操作和人工理解的作用。

易用性:对所描述的数据的形式没有严格规定。例如,对于外国人名,可以按作者原次序记录,也可以按文献单位要求的次序记录;对于主题数据,可以采用推荐的词表进行标引,也可以直接用自由词加以标引。

选择性:对描述的元素成分没有限制,所有的元素成分都是可选择的。

独立性:即语法独立性。各元素之间没有固定的次序,所有元素都是独立的,可以按照任何次序加以显示。

可重复性:所有元素都是可以重复的,可以根据需要对有关的数据进行记录,从而增强了充分描述信息资源的能力。

可扩展性:DC为集合的扩充提供了充分可能。所有元素成分都可以在现有的基础上,根据需要进一步设置子项目,加以扩充。

兼容性:各种元数据之间具有比较好的兼容性,可以在现有框架下,在不同元数据集合之间进行转换。2.2.5元数据的应用元数据的应用范围广泛,如图像检索、导航和图像集合中浏览,视频,音频和演讲,结构化的文献管理,地理和环境信息系统,数字图书馆,支持信息存取的混合多种媒体等。在整个世界范围内,元数据正受到各行各业的重视,并在越来越多的领域中应用。1.元数据在国外的应用(1)美国的教育资料网关(2)北欧的万维网索引(3)欧洲研究与教育信息服务之开发项目(4)北欧的元数据项目2.元数据在中国的应用(1)中国大陆的元数据研究文化部科技司的数字式中文全文文献通用格式;中国大陆的数字图书馆项目:中国试验型数字式图书馆;中国数字图书馆工程;清华大学建筑数字图书馆;北京大学的中文Metadata标准研究。(2)中国台湾的元数据研究分散式元资料实验系统;梵蒂冈地区中文联合馆藏系统;资源组织与检索之规范;中文资讯元资料交换;数位博物馆专案计划。2.2.3元数据(/conferences/)2.3信息资源标引法

标引是通过对文献或信息资源的分析,选择确切的检索标识(如分类号、主题词、关键词、人名、地名等),用以反映该文献或资源内容的过程。通常指选用检索语言词或自然语言词反映文献主题内容,标引是内容的主题分析和用词表达两个步骤的结合。

标引是文献加工中的重要环节,是款目或记录编排的基础和根据,对信息检索效果有直接的、决定性的影响。通过标引,各种目录、索引等检索工具才能编成。各种标引词存储于计算机内,才能实现对文献或信息的检索。利用何种检索标识进行标引,就形成了各种标引法。按使用检索标识或语言的类型,标引可以分为分类标引法、主题标引法、关键词标引法和名称(人名、地名、书名等)标引法等。由于计算机信息检索系统和信息数据库的应用,又出现了自动标引。2.3.1分类标引

分类标引,又称为归类,是指依据一定的分类语言,对信息资源的内容特征进行分析、判断、赋予分类标识的过程。

分类标引工作是对信息资源进行分类组织的基础和前提,对文献开发利用具有重要意义。通过对信息资源赋予分类标识,信息机构可以将各种信息资源纳入相应的知识门类,建立起相应的分类检索系统。2.3.1分类标引1.分类标引要求要保证信息资源的标引质量,分类标引工作应遵循如下要求。①标引的准确性:指将资源归入对应的学科和专业,以及分类体系中最专指、最切题的类目。②标引的充分性:指根据使用需要,充分揭示有检索价值的资源的主题。对只涉及一个主题对象的资源,只归入一个对应的类目;对同时涉及多个主题的资源,应采用适当的标引深度,进行分类标引,既要保证查全率,又要兼顾查准率。③标引的一致性:指同一主题内容资源标引结果的一致性。要保持较高的一致性,不仅应提高标引人员的素养,还应通过规范标引程序和建立明确的规则等。④标引的适用性:指标引应考虑系统的特点和用户的检索需要,使标引结果适用。要实现上述目标,必须根据分类标引的特点,掌握和了解分类标引方法、分类标引规则和分类法的特点及使用环境。2.3.1分类标引2.分类标引方法

按编制方式,分类标引方法可分为等级列举式(层累式)、分面组配式和列举组配式三种。2.3.1分类标引3.分类标引规则

分类标引规则是根据检索系统的需要,并结合分类表和信息资源的特点而确定的。按照分类标引规则的特点和涉及的内容对象范围,分类标引规则一般可分为分类标引基本规则和分类标引一般规则。

(1)分类标引基本规则分类标引基本规则是整个分类过程中必须始终遵循的规则,是从信息资源分类原则中引申出来,并结合分类标引的基本要求确定的,其内容包括如下几方面。

①性质标引信息资源的分类标引是根据其性质并结合各自的特点进行的标引。传统文献分类体系是以学科为中心建立的类目体系,一般应在分析文献主题对象的同时考虑其内容的学科属性。例如,《华北地质构造》,应先按学科归入“P54区域大地构造学”,再按地区归入华北地区,即P548.22。网络分类体系是以主题或学科为中心建立的类目体系,一般应根据类目的设置特点,各入其类。文学、艺术形式的资源,通常应根据其特点,按照其体裁、形式等标引。例如,《潘天寿国画作品集》,应按其形式和作者的国别归入艺术大类“中国绘画”下的“现代国画”,即J222.7。2.3.1分类标引②从属关系标引

信息资源的分类标引必须能体现分类法的逻辑性、等级性和次第性,即凡能归入某一类的资源,必然带有其上位类的属性。

③内容标引

信息资源应依据其内容归入分类体系中内涵和外延最符合其内容的、最准确的类目。标引时,不仅应准确确定信息资源的学科归属,还应按照学科展开的层次,区分总论和专论、理论和具体应用的区别,将其归入最准确的类目。

分类标引的一般规则是从著作方式的角度提出来的,适用于各知识门类的分类规则。不同主题类型、写作方式、编辑出版形式等的资源具有不同的标引要求和规则。①

单主题、多主题信息资源的分类标引

单主题信息资源是论述某一特定主题对象的资源,一般应根据该资源对事物、对象研究的学科角度,按照论述的内容范围进行标引。

例如,《教育心理学》,应按其学科内容归入教育类下教育心理学的专类G44。

多主题信息资源是同时论述两个或两个以上的事物对象的资源,一般应按其所论述的主题对象及其关系,区别情况进行分类。

同时涉及两个并列关系的主题,应按重点或在前主题归类,并同时为另一个主题作附加分类。

例如,《气焊与气割》,可按前主题归入气焊类TG446并为气割作附加分类,互见TG481。

对于两个同属一类且有共同直接上位类的并列主题,可视情况归入其共同的上位类。

例如,《玉米、高粱育种技术》,可归入其上位类禾谷类作物S510.3。2.3.1分类标引②

简单主题、方面主题和联结主题的分类标引

简单主题只论述一个基本主题对象的资源,一般应按照主题对象的学科性质归类。

例如,《人口统计学》,应归入“人口学”下的专类G921。

方面主题论述某一主题一个或多个方面的资源,一般应根据资源论述的方面及各方面之间关系的不同情况归类。

单一方面的主题,应从学科角度归类。

例如,《中国茶文化史》应归入中国文化史K203;《日本的茶道》,应归入日本风俗习惯K893.13。

多方面的主题,应根据不同方面之间的关系确定其归属。若同属一类,应归入其共同的上位类;若不属同一类,应按重点归类。

例如,《中国茶经》,全面介绍中国茶叶的发展史、功用、制作、饮用、风俗习惯及茶树栽培等,内容涉及文化史、农业、轻工业、经济等门类,应按其重点归入中国文化史K203。2.3.1分类标引

联结关系,主题涉及两个或多个具有联结关系的主题对象,包括应用、比较、影响、因果等关系类型,通常应在分析其关系类型的基础上,各入其类。

应用关系主题,一般应按被应用到的主题归类。

例如,《微型计算机在汽车检测中的应用》,应归入汽车工程下的相应类U472.9。

比较关系主题,一般按重点论述的内容归类。

例如,《中印近代文化的比较研究》,重点论述印度文化的特征,应归入印度近代文化史K351.403。

影响及因果关系主题,一般应按被影响或表示结果的主题对象归类。

例如,《帝国主义和中国政治》,论述帝国主义对我国近代的影响,应归入中国近代史K25;《气候变迁对我国农业的影响》,着重论述气候变迁对我国农业生产的影响和关系,应归入我国农业S162.22。2.3.1分类标引③

丛书、多卷书的分类标引

丛书,是将多种独立的著作汇集为一套,并冠有一个总书名的出版物类型,一般采用分散标引,即先按丛书中的各单书的内容标引,再根据情况确定是否为丛书编制综合分类款目。

例如,《哲学的改造》(汉译世界学术名著丛书),分散标引归入B712.51。

有时还采用集中标引,即先按整套丛书的内容标引,再分别为每种书进行分析标引,并在类号中加丛书复分号“-51”。

例如,《情报检索语言论文选》(中国图书馆学情报学选丛),集中标引为G25-51,分析标引为G254.0。多卷书,是将一套完整著作分为若干卷、册出版的文献类型,一般应对整套书标引,视情况决定是否加多卷书号“-51”,有时应以各卷为单位进行分析标引。

例如,《病理学》(病理解剖学分册),综合标引归入R36-51,分析标引归入R361;《古代汉语》(共4卷),标引为H109.2。2.3.1分类标引④

参考工具书的分类标引

参考工具书包括词典、百科全书、年鉴、手册等,一般应根据其内容范围、出版形式,结合资源组织进行标引。

综合性参考工具书,通常应集中标引,归入Z综合性图书。例如:《中国大百科全书》归入Z227.1。

专科性参考工具书,一般应按内容归入有关的知识门类,同时采用相应的总论复分号对其形式加以揭示;或集中于“综合性图书”类的相应专科类目下,再使用组配方式对其学科内容加以揭示。例如:《经济统计年鉴》,分散标引为F222-54,集中标引为Z58:F222。2.3.1分类标引⑤

检索工具书的分类标引

检索工具书包括目录、索引、文摘等,通常应结合资源组织需要加以标引。

综合性检索工具书,通常应归入“综合性图书”类的相应门类。

例如,《国外期刊目录(1977)》,标引为Z87。

专科性检索工具书,一般采用集中标引,即先集中归入“综合性图书”大类的相应门类,再按组配法揭示其学科;也可采用分散标引,即先分散于有关各类,再在学科的分类号后加总论复分号“-7”。

例如,《敦煌学著作目录》,集中标引为Z88:K870.6,分散标引为K870.6-7。

专书索引,一般应随原书归类。其中,对于马列经典作家的著作及研究的检索工具书,《中图法》在马列大类下设有专类,通常可归入相应专类。

例如,《十三经索引》,归入“十三经”所属的类目Z161.1;《马克思恩格斯全集目录》,归入“马克思恩格斯全集学习”下的专类A813。2.3.1分类标引⑥

对著作的研究、注释的分类标引

例如,《荀子全译》,应归入中国哲学下荀子专类,按专类复分表区分,标引为B222.64。

例如,《<矛盾论>解析》,归入A841.24。

缩写、节选的资源,若内容性质未发生变化,一般仍随原书归类;若内容性质有较大改变,则应重新归类;从一种体裁改写为另一种体裁的文艺作品,或者将其他门类的作品改编为文艺作品,一般应按改写后的体裁归类。2.3.1分类标引

特种文献的分类标引

技术标准,综合标引归入“T-65工业规程、技术标准”类,分散标引按专业各入其类,以总论复分表号码加以揭示。

例如,《信息交换用汉字编码字符基本集》(GB2312—1980),分散标引为TP391-65,集中标引为T-652.1。

专利文献,在自然科学总论和工业技术设有C18、N18、T-18等专类,有关各学科的专利可各入其类,再以总论复分号-18复分。⑧

技术报告、学位论文的分类标引

标引时,一般按其内容性质进行归类。

例如,《国外社会科学信息网络建设》(科技报告),标引为C1。⑨非书资料的分类标引

非书资料指非印刷型文献,可分为声像资料和缩微资料两类。一般应根据文献内容的学科属性加以标引,并依据总论复分表揭示其媒介形式。例如,《英语口语》(录音带),标引为H319.9-792。⑩网络信息资源的分类标引网络信息资源的标引,一般应按分类体系的特点,各入其类,有两种方式:一种是采用传统分类体系,并以此为基础进行必要的增补,目前国外依据DDC、UDC、LCC等建立的网络分类检索系统基本上属于此类;另一种是采用直接以网络资源为对象编制的分类体系,Yahoo、搜狐等网络分类检索系统属于此类。例如,“国际图联”网站采用《中图法》,标引为G25-20。2.3.1分类标引

4.对常用几种分类法的评价

主题标引是依据一定的主题词表或主题标引规则,赋予信息资源语词标识的过程。具体而言,主题标引是在主题分析的基础上,以一定的词表或标引规则作为依据,将信息资源中具有检索意义的特征转换成相应的主题词,并将其组织成表达信息资源内容特征的标识的过程。按照是否使用词表,主题标引可分为受控标引(指依据特定词表赋予检索标识)和自由标引(指直接采用自然语言语词(如关键词)进行标引,采用关键词进行标引时亦称关键词标引)两类。本节主要讲述受控标引。1.标引方式

标引方式是根据资源特点和使用需要确定的标引和揭示文献主题的形式。其标引方式包括整体标引、全面标引、对口标引、综合标引和分析标引等。(1)整体标引

整体标引,亦称浅标引,是一种概括揭示信息资源基本主题内容的标引,只揭示信息资源中具有检索价值的整体性主题,而不揭示所涉及的各种从属性主题内容。例如,《信息管理》一书,只标引“信息管理”主题内容,不对附属主题内容进行揭示。

整体标引常用于手工检索系统。在实际操作中,对某资源进行整体标引,一般只赋予1~2个分类号,标引词数量限制为2~8个。2.3.2主题标引(2)全面标引

全面标引,亦称深标引,是一种充分揭示信息资源论及的所有有检索价值的主题概念的标引,不仅揭示文献论述的整体主题,还揭示符合检索系统要求的所有主题概念。例如,《黄河水质变化浅析》一文,应将水质、变化、水质污染、黄河、农药污染、城市污水、河流污染、预测等主题概念一一加以标引和揭示。

全面标引可以加深对信息资源内容的揭示程度,有利于提高查全率,适用于使用主题标识并结合机检系统处理专业领域的论文、技术报告等类型文献;以图书为对象的标引,一般不宜采用全面标引的形式。在实际操作中,对某资源进行全面标引时,主题词的标引数量通常保持在5~20个,分类标引较少使用全面标引。

(3)对口标引

对口标引,亦称重点标引,是一种只揭示信息资源中适合本专业需要的主题内容的标引。对口标引具有较强的针对性,可使标引工作较好地适合用户的实际使用需要,改进费用效益比,提高查准率。有明确服务对象的专业信息单位常采用此标引方式。2.3.2主题标引(4)综合标引

综合标引是一种以丛书、多卷书、论文集、会议录、标准汇编、档案的案卷等为单位进行的概括性标引,应揭示资源的主题内容和资源类型。

例如,《机械设计丛书》在以整套书为单位进行标引时,应标引整体内容——“机械设计”,还应揭示资源类型——“丛书”。(5)分析标引

分析标引是一种根据资源中部分片段或集合型资源的构成单元进行的标引。

例如,《西行漫记》一书,是研究毛泽东生平活动的重要资料,可在对全书进行整体标引的同时,将这一部分内容以分析标引的方法加以揭示。分析标引在进行整体标引或综合标引的同时揭示资源中有检索价值的主题内容。

标引方式通常应结合检索系统的设备条件、资源特点、收藏范围、用户需求、标引种类等多种因素加以考虑。手检工具多采用先组式标引,对资源内容的揭示一般比较概括,宜采用整体标引,必要时可结合分析标引;机检系统以后组式标引为主,通常对主题的揭示比较充分和完备,宜采用全面标引。2.3.2主题标引2.标引方法2.3.2主题标引3.标引规则

(1)基本规则①

查词规则

查词规则包括叙词标引、组配标引、靠词标引、增词标引和自由词标引。叙词标引,应采用正式叙词、专指叙词和上位叙词(《汉表》中的词)等。2.3.2主题标引组配标引,当词表中无相应专指叙词时,可选用词表中最接近、最直接关联的叙词进行组配标引。

例如,“图书注销”主题,选用“图书登记”这一含义相近的叙词进行靠词标引。增词标引,对于词表明显漏收的词,或者表达新学科、新理论、新技术、新材料、新发展的词(如黑客、电子商务、网页制作等),或者出现频率较高的词(如网络安全),或者可能出现二义性结果的词,或者地名、人名、机构名、著作名等,均可采用增词标引。自由词标引,即直接采用自然语言中的语词进行标引。此类词通常不收入词表,不对其进行词间关系处理。2.3.2主题标引②组配规则

组配标引是将两个或两个以上叙词按照一定的逻辑关系结合在一起,表达资源主题,主要包括交叉组配和限定组配。

交叉组配是指选用若干具有交叉关系的叙词进行组配,表达一个复合的子概念,通常以符号“:”为组配标识。

例如,国际铁路联运,标引为“铁路运输:国际运输:联合运输”。

限定组配是以表示事物的叙词和表示事物特称、属性、方面的叙词进行组配,表示一个新的专指概念,通常以符号“-”或“,”为组配标识。它包括如下4种类型。

特称限定组配:表示某事物与其部分概念之间的组配。例如,拖拉机发动机,标引为“拖拉机-发动机”。

方面限定组配:表示某事物与其方面概念之间的组配,包括材料、性质、现象、状态、工艺、理论、地区、时代、文献类型等。例如,电子元件生产工艺,标引为“电子元件-生产工艺”。

说明语限定组配:通常用于对事物进行补充说明,表示事物的性质、特征等,可以使用叙词或自然语言作为说明语。例如,胶体的生物学方法生产,标引为“胶体-生产,生物学方法(自然语言)”。

联结限定组配:表示事物与具有联结关系的事物的组配。例如,环境保护与可持续发展的关系,标引为“环境保护-关系-可持续发展”。2.3.2主题标引(2)一般规则①

单主题、多主题信息资源的标引

单主题信息资源,可根据该资源研究的主题对象进行标引。

例如,现代城市交通安全教程,标引为“市区交通-交通运输安全”。

多主题信息资源,一般应按照主题对象之间的并列关系或从属关系进行分组标引。如并列关系主题超过四个,可使用上位叙词标引。

例如,《数据通信与计算机网络》,标引为“数据通信,或者计算机网络”;从属关系主题的《网络安全与黑客》,标引为“计算机网络-安全,或者黑客”。②

简单主题、复合主题和联结主题信息资源的标引

简单主题信息资源,可直接按资源的论述对象(事物、学科、现象等)进行主题标引。

例如,《审美教育》,标引为“美育教育”。

复合主题信息资源,应根据资源论述的对象和方面进行组配标引,必要时可进行轮排。全面论述某事物对象的资源,仍按主题对象标引。

例如,《装配式钢筋混凝土桥梁》,标引为“钢筋混凝土:桥梁”。

联结关系主题信息资源,应根据主题关系类型(应用关系、比较关系、影响关系、因果关系等)和收词情况进行主题标引,并应依据不同主题对象互为主、副标题进行轮排。

例如,《运筹学在纺织工业中的应用》,标引为“运筹学-应用-纺织工业”;《WTO与地方行政管理制度研究》,标引为:行政管理-制度-地方-中国-影响因素-世界贸易组织,或者世界贸易组织-影响-行政管理-制度-地方-中国。2.3.2主题标引③论及地区、时代信息资源的标引

论及地区、时代信息资源的标引是指论及某地区或某时代有关主题内容的信息资源,应根据论述的特点和检索系统的需要加以处理。例如,《意大利政党》,标引为“政党-意大利-现代”;《宋代哲学史》,标引为“哲学史-中国-宋代”。④传记信息资源的标引

传记一般同时涉及人物对象及其活动领域两方面,应根据其侧重进行标引。

例如,《老舍年谱》,标引为“老舍(1899—1966)-年谱”;《爱因斯坦与相对论》,标引为“爱因斯坦,A.(1879—1955)-生平事迹,或者相对论”;《世界著名科学家传》,标引为“科学家-传记-世界”。⑤文艺领域作品的主题标引

文艺领域作品包括以文艺为研究对象的资源和文艺作品,应根据其特点进行标引。

例如,《当代女作家小说集》,标引为“短篇小说-女作家-中国-现代”;《唐山大地震》,标引为“报告文学-中国-现代,或者地震-唐山-报告文学”。2.3.2主题标引⑥

丛书、多卷书、论文集的主题标引丛书的主题标引大体与分类标引相同,可采用综合标引和分析标引的方式。例如,《文献编目论文选》(图书馆学情报学丛书),综合标引为“图书馆学-丛书,或者情报学-丛书”,分析标引为“编目”。多卷书的主题标引,一般采用综合标引。例如,《中国审美文化史》(先秦),标引为“美学史-中国-多卷书,或者美学史-中国-先秦时代”。论文集的主题标引,一般应以该书的内容对象进行整体标引,对其中的单篇著作不再进行分析标引。例如,《面向21世纪的情报语言学》(会议录),标引为“检索语言-中国-会议录

THE END
1.AI加持,智慧搜索资讯阅读新模式为方便广大师生、校友快速搜索学校相关信息,网络与信息化管理处建设智慧搜索平台。平台系统信息来源覆盖全校网站群部署的各级网站、各二级单位官方微信公众号、教育科研资讯、OA、一网通办服务等。了解科研信息、办理服务、查询老师资料、追踪校园新闻、浏览校内外应用,上智搜,一站式找到所有您需要的校园信息! https://nic.xauat.edu.cn/info/1139/4540.htm
2.信息检索名词解释信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索已成为图书馆独立的工具和用户服务项目。随着1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时情报检索系统 https://xue.baidu.com/okam/pages/strategy-tp/index?strategyId=142295899708690&source=natural
3.图书检索系统体系架构研究图书检索系统可以归纳为索引子系统、检索子系统、资源匹配子系统和资源子系统四大部分,每一个子系统在整个系统中都有着不可忽视的作用,各个子系统之间统筹合作完成图书信息的检索工作。 下面小编为大家准备了图书检索系统体系架构的文章,欢迎阅读。 1 图书信息检索系统评价指标 https://www.yjbys.com/edu/jiagoushi/216499.html
4.高中信息技术课程标准信息技术教育已经超越了单纯的计算机技术训练阶段,发展成为与信息社会人才需求相适应的信息素养教育。因此,高中信息技术课程的设计体现如下三个特点:第一,信息技术应用能力与人文素养培养相融合的课程目标;第二,符合学生身心发展需求的课程内容;第三,有利于所有学生全面发展与个性发展的课程结构形式。https://www.fqkhzx.cn/index/article/view/id/94.html
5.《信息检索技术(第四版)》书后习题及参考答案.doc6.二次检索是指在第一次检索结果不符合要求时,重新选择检索条件再次进行检索。答案1.√2.×3.×4.√5.√6.×三、选择题(单选或多选) 1.目前,常用的文献分类方法有___。(A)《中图法》 (B)《科图法》 (C)《杜威十进分类法》 (D)《人大法》 2.信息检索方法包括___。(A)顺查法 (B)逆查法 (Chttps://max.book118.com/html/2021/0712/8007110127003120.shtm
6.中国期刊网CNKI数字图书馆!查全率和查准率是对检索结果的有效性进行说明的两个概念: 查准率=被检出的相关文献量/被检出的文献总量 查全率=被检出的相关文献量/系统中所有的相关文献量 2、受控语言 受控语言是符号化的概念标识系统,用于概括文献信息内容中出现的概念并用于文献的标引和检索。其“受控”的含义体现在对概念的挑选和净化、标识符号https://www.cnki.net/gycnki/daobao/cnkidaobo18/gycnki018_04.htm
7.信息检索作业答案概要4篇(全文)(3)现代百科全书(18世纪以后):编者一般是多学科合作,尤其是跨国合作,内容是以现代科学观念系统概述知识为主,兼及教育作用。 请给分: 2.电子词典深度开发的表现 正确答案: (1)检索系统的开发。(2)内容的整合。(3)相关内容的跳转。(4)基本信息的添加。(5)字音朗读 单选题:(共30道试题,每题2分) 1.被称为https://www.99xueshu.com/w/fileymokm41d.html
8.数字化学习资源及其应用专题培训数字图书馆实质上是一种互联网的应用工具,将互联网上相关的各种资源的URL地址(包括有关的研究机构、实验室、电子书籍、学术期刊、会议论坛等的URL地址),系统地组织起来存放于某一网页,供用户浏览和检索。其检索方式,可以是目录检索,也可以是关键词检索。由于有专业人员对数字图书馆中的信息进行筛选和组织,故信息质量http://www.zpxx.wj.czedu.cn/html/article731078.html
9.图书馆知识竞赛:图书馆知识竞赛题库(2017年最新版)43、单项选择题 分类检索语言又称分类法,是用分类号和什么来表达信息的主题概念,并且 按照知识门类的逻辑次序将信息系统地组织和划分的语言()。 A、类名 B、题名 C、信息 D、语言 点击查看答案 44、填空题 “图书馆”的英文是()。 点击查看答案 45、单项选择题 哪里的亚马逊网上书店是世界上最大的网上书店http://www.91exam.org/exam/87-1073/1073113.html
10.信息检索心得体会(汇总19篇)在平日里,心中难免会有一些新的想法,好好地写一份心得体会,这样就可以总结出具体的经验和想法。那么心得体会该怎么写?想必这让大家都很苦恼吧,下面是小编整理的信息检索心得体会,仅供参考,大家一起来看看吧。 信息检索心得体会 1 一、对科技信息检索的熟悉 https://www.jy135.com/xindetihui/2423600.html
11.科学研究思路与科研设计通州院区旧站数据检索系统的确定指根据课题选择合适的检索系统,它必须包括检索者检索需求的学科范围和熟悉的检索途径。在计算机检索中还需要确定检索所需要的文档名称或代码。检索途径的确定指各检索系统一般都具有许多索引体系(即检索途径),应根据课题需要选择自己熟悉的检索途径。检索词的选定指各种检索途径均须有相应检索词(亦称入口词)https://www.dzmyy.com.cn/Html/News/Articles/1000523.html
12.科技信息检索与论文写作期末答案考试题库2024春科技期刊论文的前置部分,至少包括如下几项内容:答案:摘要###关键词###作者及其单位###论文标题在检索科技信息时,以“题录”形式记录有价值信息源,有利于撰写论文时罗列“参考文献”。答案:对撰写科技论文,在参考文献中引用科https://www.wkebb.com/c/ce70bab536496374670c48e85937423d.html