因特网起源于上世纪70年代初的美国,最初目的是保障国防军用计算机之间的通信畅通。随着信息技术的迅猛发展,在美国政府、科研机构、高校及企业的支持推动下,因特网迅速发展成一个全球性的信息网络,成为一个家喻户晓的名词,正所谓“昔日王谢堂前燕,飞入寻常百姓家”。
信息社会正向学习型社会快速转型,终生教育或终身学习已成为每一名公民必须面对的课题,因特网无疑是人们知识更新的一个重要工具。信息素质在社会公民生存与发展中的重要性日益突显,在信息素质的丰富内涵中,因特网信息检索与利用占有重要的位置。
因特网的普及也给图书资料专业人员的工作服务方式带来了深刻的影响。机遇与挑战并存,正如国际图联委员、上海图书馆馆长吴建中博士所言:“图书馆员需要互联网,互联网更需要图书馆员”
因本人知识认识水平有限,错误之处请同行批评指正。
1因特网概述
1.1什么叫因特网?
因特网(Internet)是全世界靠TCP/IP协议连接起来的所有计算机及其各级网络所组成的一个全球范围的计算机网络。又称互联网,即通常所说的“信息高速公路”。它有三方面的含义:
一个基于TCP/IP协议集的计算机网络集合;
一个网络用户的团体。数亿用户使用着网络资源,同时也为在因特网的发展作出贡献;
一个所有可被访问和利用的信息资源的集合。
1.2因特网信息资源的类型和内容
1.2.1类型
因特网上信息资源浩如烟海,可以从不同的角度进行划分和归类,依据不同的标准,因特网信息资源可分成不同的类型:
归类标准因特网信息资源的类型
内容范围学术信息、教育信息、政府信息、文化娱乐信息、有害和违法信息等;
发布形态书目信息、电子报刊、文本文档,以及网上电子邮件、电子公告、专题讨论栏目等形式的非正式信息等;
学科领域社会科学、人文科学、自然科学、技术科学等;
交流方式非正式出版信息、半正式出版信息、正式出版信息;
组织形式万维网(WWW)、电子邮件、FTP、Telnet、Usenet/Newsgroup、LISTSERV/MailingList、Gopher、WAIS
1.2.2内容
因特网信息资源的内容涉及人类面对和从事的各个领域、行业及各种话题。如Yahoo!的中文雅虎对因特网信息资源的内容概括为:艺术与人文、商业与经济、电脑与因特网、教育、娱乐、政府与政治、健康与医药、新闻与媒体、休闲与运动、参考资料、区域、科学、社会科学、社会与文化等大类和众多小类。雅虎中国
值得指出的是,上述因特网信息资源类型和内容的划分交叉重叠。这种状况,增加了网络检索的难度,但也正因为此,使因特网显得神奇而令人流连往返,不可思议。
1.3因特网信息资源的特点
与传统信息资源相比,因特网信息资源具有无可比拟的优势,其主要特点表现在
内容丰富、种类繁多、几乎无所不包。
超文本、超媒体、集成式提供信息,除文本信息外、还有图表、图形、图象、声音、动画等。
价廉。体现在互联网信息资源的高度共享性,大量免费信息资源。
新颖、深入。如网上大量的灰色文献或边缘文献。包括:研究报告、调查采访、研讨会发言、项目计划报告等。
无序、多变、难以控制。
广泛、直接交流。如可通过新闻组、邮件列表、实时聊天软件参加讨论。还可从专家学者的个人网页上获得许多价值独特的资料。
1.4因特网有关技术术语
这里仅从信息检索的角度对所涉及到的因特网技术术语作简单介绍。
1.4.1超文本与超链接(HypertextandHyperlink)
超文本就是包含有链接的字符串,通常以下划线的形式表示。由于超链接可以指向任何其他位置的文件,传统印刷型文本从头到尾线性的秩序被打破。超文本允许在文件与文件之间任意转换,这种文本与文本之间的链接关系就称为超链接。
1.4.2浏览器(Brower)
浏览器是Web页浏览的客户应用程序,是一种在窗口环境下浏览互联网资源并获得信息的多媒体工具。有了浏览器,用户才能够在因特网的大海中航行。
1.4.3通信协议(TCP/IP协议)
TCP(TransportControlProtocol)指传输控制协议,IP(InternetProtocol)指网际协议。互联网连接了世界上不同国家与地区无数不同硬件、不同操作系统与不同软件的计算机,数据在传输过程中很容易丢失或传错。为了保证这些计算机之间能够畅通无阻地交换信息,INTERNET采用统一的通信协议——TCP/IP协议,它能保证数据迅速可靠传输。
1.4.4网络地址与域名(IP地址和DN)
域名(Domainname):IP地址难于记忆,也可以用域名来表示主机。域名由英文字母表示,具有一定的意义,便于记忆。如韶关学院网站的域名:www.sgu.edu.cn其中cn代表中国(China),edu代表教育网(Education),sgu代表韶关学院(ShaoguanUniversity),www代表万维网(WorldWideWeb),整个域名合起来就代表中国教育网上的韶关学院站点。
互联网上的域名千姿百态,但从域名的结构来划分,总体上可把域名分成两类,一类称为“国际顶级域名”(简称“国际域名”),一类称为“国家域名”。一般国际域名的最后一个后缀是一些诸如.com.net.gov.edu的“国际通用域”,这些不同的后缀分别代表了不同的机构性质。
国际顶级域名举例(机构性质域名)
域名表示的组织或机构的类型
com商业机构
edu教育机构或设施
gov非军事性的政府机构
int国际性机构
mil军事机构或设施
net网络组织或机构
org非赢利性组织机构
在国家域名中,对于美国以外的主机,其最高层次域基本上都是按国家命名的。国家名域指明了该域名源自的国家。在几乎所有的情况中,国家域名都是两个字母的国家代码。美国虽然也有地理域,但很少使用。如果在一个域名的末尾没有找到国家域,就可以假定该域名是源自美国的。其他国家的右边第一个域名则代表国家。
国家域名举例
域名表示国家或地区域名表示国家或地区
AU澳大利亚JP日本
AT奥地利KR韩国
BR巴西SG新加坡
CA加拿大UK英国
CN中国FR法国
TW中国台湾DE德国
HK中国香港NZ新西兰
MO中国澳门RU俄罗斯
域名举例:
世界卫生组织(国际组织.int)
美国圣乔治大学(高校.edu)
澳大利亚昆士兰大学(澳大利亚高校.edu.au)
美国疾病与预防控制中心(政府机构.gov)
美国图书馆协会(非赢利性组织.org)
1.4.5统一资源定位器(URL)
URL把主机域名和主机内部的文件目录系统结合起来,作为浏览器浏览主页的统一地址表示方法。URL从左到右依次为:协议、主机域名或IP地址、文件路径、文件名。
如《韶关学院教学成果奖实施细则》的URL为:
2因特网检索工具
2.1定义
指在因特网上提供信息检索服务的计算机系统,其检索对象是存在于因特网信息空间中各种类型的网络信息资源。网络检索工具通常称为搜索引擎。
著名的检索工具有百度、Yahoo、Lycos、Google等。
2.2搜索引擎的四种类型
2.2.1目录式搜索引擎(subjectdirectory)(也称网络资源目录)
1)定义
由信息专业人员在广泛搜集网络资源及有关加工整理的基础上,按照某种主题分类体系编制的一种可供检索的等级结构目录。如中文Yahoo!
一个网络目录包括许多层,层次一般是的4级。用户能通过浏览目录,在目录体系的引导下,发现、检索到有关的信息。
如用户想利用网络资源目录查找有关搜索引擎的信息,在中文Yahoo!分类搜索引擎上的检索路径是:电脑与因特网>因特网>搜寻与检索>搜索引擎
2)目录式搜索引擎的特点:
经过信息管理专业人员、分类专家的人工设计和编制,提高了检索的准确性。
数据库的规模相对较小,检索到的信息数量有限。
目录型检索工具比较适合于查找综合性、概括性的主题概念,或对检索准确度要求较高课题。最著名的目录型检索工具是YAHOO!
2.2.2机器人搜索引擎
1)原理
机器人搜索引擎原理图
2)机器人搜索引擎的特点
由自动索引软件生成数据库,收录、加工信息的范围广、速度快,能及时地向用户提供新增信息。
标引过程缺乏人工干预,准确性较差,加之检索软件的智能化程度又不很高,导致检索误差较大。
搜索引擎适合于检索特定的信息及较为专、深、具体或类属不明确的课题。较有代表性的搜索引擎有Google,EXCITE等。
机器人搜索引擎与分类搜索引擎有合并的趋势,典型的有Yahoo!,百度
2.2.3多元搜索引擎
将多个搜索引擎集成在一起,提供一个统一的检索界面,并将一个检索提问同时发送给多人搜索引擎,同进检索多个数据库,再经过聚合、去重之后输出检索结果。如DogpileMetacrawler等。
优点:省时缺点:准确性差
2.2.4专门搜索引擎
常用中文搜索引擎
Alltheweb(Fast)www.alltheweb.com4480万简体中文网页,1401万繁体中文网页,需单选中简体中文语言搜索,否则效果不好。
Openfind中文www.openfind.com/cn.web.phpu=cn中文网页数不详,从检索效果上看与Google相近。更新较慢,提供按网页大小或日期排序。Openfind查询秘诀
Inktomi/MSNAltavistawww.msn.comwww.av.comInktomi和Altavita收录中文网页也以千万计,但因为它们没作中文特殊处理,所以用简单的中文关键词可以搜到一些内容,但用稍长一点或组合关键词查询时,搜索效果就很差。其它如Wisenut、Gigablast等,也能搜索一点点中文,但因为没做中文特殊处理,一样没有搜索价值。
常用英文搜索引擎
Alltheweb(Fast)www.alltheweb.com21亿网页,高级检索强大,有新闻、图片、MP3、Video、ftp,利用ODP对搜索结果简单分类。
Altavistawww.av.com约7亿网页,有图像(5.4亿图片)、音频、视频文件、新闻搜索,高级语法强大,有prisma辅助检索。(部分网友需通过p-roxy访问,无p-roxy可用qbseach单选altavista搜索。)
Inktomisearch.positiontech.com自称30亿网页(搜索效果上看不出这么多),技术设置和参数可调性高,支持的门户搜索数据库和排序多不同,可到Hotbot使用Inktomi的高级搜索。
Northernlightnlresearch.northernlight.com约7亿网页+7100出版物数据,需选中"WorldWideWebonly"搜索。速度略慢,杂志数据有独特搜索价值,能对结果作简单自动分类,翻页数不限,支持通配符。
Openfindwww.openfind.com自称35亿网页(搜索效果上看不出这么多),旧网页死链接多,支持按网页大小或日期排序。
Teomawww.teoma.com约3亿网页,速度略慢,支持类似自动分类Refine;同时提供专业链接目录的Resources。
Gigablastwww.gigablast.com1.5亿网页,提供网页快照。
3因特网信息检索
3.1定义
因特网信息检索(InternetInformationRetrieval),又称因特网信息查询或搜索(InternetInformationsearch),是指通过Internet,借助网上的服务和工具,根据信息需求,在按一定方式组织和存储起来的因特网信息集合中查找出有关信息的过程。
3.2特点
3.2.1信息源选择范围大,不受时空限制
3.2.2交互性强、易于反馈
可以人机对话,交互作业。比如输入错误的检索词后,会自动提供正确的拼法,请用户确认;良好的信息反馈功能。能就所遇到的问题获得帮助和指导,便于检索及时调整检索策略,以获得良好的检索结果。
3.2.3准确性和完整性不尽如人意
主要表现在变动不居,随意自由,检索工具和手段不很理想。认识到这一点,有助于认识到对网络信息评价是一个重要问题。
3.2.4检索结果呈逐级链接
无法通过一次查找就能达到最终目的,其初步返回的结果通常仅包括题目、内容简介、URL地址等,往往是指向某一网站网页的链接目录,即资源网址,而非所需资源本身,还需要通过链接进行更进一步的检索,并深入到各个资源目录中多次查找才能完成检索并获取更详细的内容。
3.2.5检索与浏览相结合
在因特网信息检索中,由于因特网检索工具基本上既有供浏览的分类信息,又具备检索功能,检索便于有的放矢,直接获取检索结果;浏览利用边查边看,发现未曾预料的结果,因此,因特网检索通常是浏览与检索有机结合,方便用户查找信息。
3.3因特网信息检索的一般方法
要获取因特网上的信息,用户必须首先找到网址(URL),然后通过网址去访问网页所提供的信息。一般方法可有以下几种:
3.3.1浏览
1)偶然发现:即在日常的网络阅读、漫游过程中,意外发现一些有用信息。这种方式的目的性不是很强,有不可预见性、偶然性。有时会充满乐趣,有时也可能一无所获。
3.3.2通过网络资源指南来查找信息
网络资源指南即指前面所讲的目录式搜索引擎,或网络资源目录。Yahoo!就是典型的综合性网络资源指南。此外,还有各种专业性的网络资源指南,几乎每一个学科专业、重要课题、研究领域的网络资源指南都可在因特网上找到。对于有目的网络信息发现有重要的指导、导引作用。但由于管理、维护跟不上网络信息的增长速度,导致收录范围不够全面,新颖性、及时性可能不够强。
3.3.3利用搜索引擎
这是较为常规的网络信息检索方式。用户以关键词、词组或自然语言构成检索表达式,提出检索要求,搜索引擎代替用户在数据库中进行检索,并将检索结果提供给用户。它一般支持支持布尔检索、词组检索、截词检索、字段检索等功能。
利用搜索引擎进行检索的优点是:省时省力,简单方便,检索速度快、范围广,能及时获取新增信息。其缺点在于检索准确性不是很高,与人们的检索需求及对检索效率的期望有一定的差距。
3.4因特网信息的检索策略与方法
3.4.1检索策略
所谓检索策略是在分析情报提问实质的基础上,确定检索途径与检索用词,并明确各词之间的逻辑关系与科学的查找步骤。构造良好的检索策略是查准与查全的关键。用户能否构造一个最佳的检索策略,将直接影响到检索的查全率、查准率。
(网络信息检索原理图)
3.2搜索引擎检索方法(以Google为例)
1998年9月由两名斯坦福大学的研究生开始研制,2000年正式投入商业运营。目前可检索网页达30亿个。每日访问量达7000万次。包括雅虎、美国在线、网景和中国的网易等知名站点在内的全球150多家公司采用了Google搜索引擎技术。被美国《时代》杂志评选的“1999年度十大网络技术之一”,《个人电脑¤“最稼予“最佳技术奖“,TheNet授予“最佳搜索引擎奖”
雅虎的网站使用人数是Google的10倍,但Google的消费者满意度始终名列第一。支持中文搜索,其中文按索引擎是收集亚洲网站最多的搜索引擎之一。
3.2.2Google的特点
1)专利网页级别技术PageRank能够提供高命中率的搜索结果。
2)搜索结果摘录查询网页的部分具体内容,而不仅仅是网站简介。
3)支持多达132种语言,包括简体中文和繁体中文。
4)网站首页设计简洁、鲜明、大方,使用方便。
5)“网页快照”功能,能从Google服务器里直接取出缓存的网页。
3.2.3Google的检索功能
1)基本检索
A.逻辑“与”操作无需用明文的“+”来表示逻辑“与”操作,只用空格就可以了。例如:“韶关学院图书馆”可以查出同时包含“韶关学院”和“图书馆”二个关键字的全部文档。
B.逻辑“非”操作用英文字符“-”表示逻辑“非”操作。此外,操作符与作用的关键字之间,不能有空格。“韶关学院–图书馆”(正确),“韶关学院-图书馆”(错误)
如果存在空格,搜索引擎将视为“韶关学院”和“图书馆”的逻辑“与”操作,中间的“-”就被忽略。
C.逻辑“或”操作,Google用大写的“0R”表示逻辑“或”操作,小写的“r”在查询的时候将被忽略,否则操作就变成了一次“与”查询。如:“韶关学院OR图书馆”可以查找到包括“韶关学院”或“图书馆”的网页。注意:“0R”后面要加空格,否则就成了“与”操作。
不使用“词干法”,也不支持“通配符”(*)为提供最准确的资料,Google只搜索与输入的关键词完全一样的字词。例如:搜索“comput*”不会出现“compute”、“computer”等词,相反,Google将其当作一个错误词加以提示。
对英文字符大小写不敏感“GOD”和“god”搜索的结果是一样的。
Google的关键字可以是词组(中间没有空格),也可以是句子(中间有空格)。但是,用句子做关键字,必须加引号,否则Google将自动分词,如“胆子再大一点,步子再快一点”
2)高级检索
“site:”对搜索的网站进行限制
“site:”表示搜索结果局限于某个具体网站或者某个域名。
例一:限定国家:查找英国高校图书馆网页信息
检索表达式university.librarysite:uk
例二:限定领域:查找中国高校图书馆网站有关信息
检索表达式:图书馆site:edu.cn
检索表达式:中国高校图书馆(对比检索结果)
如果是要排除某网站或者域名范围内的页面,只需用“关键词-site:网站名或域名”。site后冒号为英文字符,而且,冒号后不能有空格,否则,“site:”将被作为一个搜索的关键字。
这个功能可以帮助我们迅速从某个地区或某个网站中找到所需信息,从而大大缩小检索范围,提高检索效率。
“filetype:”查询某一类文件(往往带有同一扩展名)
“filetype:”是Google的一个特色查询功能。可搜索的文件类型包括:AdobePortableDocumentFormat(PDF)、AdobePostScript(PS)、MicrosoftExcel(XLS)、MicrosoftPowerPoinet(PPT)、MicrosoftWord(DOC)、RichTextFormat(RTF)等12种。其中最重要的文档搜索是PDF搜索(注:PDF是ADOBE公司开发的电子文档格式,现在已经成为互联网的电子化出版标准)。目前Google检索的PDF文档大约有2500万左右。
例一查找关于生物的生殖发育方面的教学课件
检索表达式:生物生殖发育课件
检索表达式:生物生殖发育filetype:ppt(对比检索结果)
例二:查找关于遗传算法应用的论文(pdf格式)
检索表达式:遗传算法filetype:pdf
例三:查找查新报告样本(DOC格式)
检索表达式:查新报告filetype:doc
“inurl:”和“allinurl:”搜索的关键字包含在URL链接中
“allinurl:”语法返回的网页的链接中包含所有查询关键字。这个查询的对象只集中于网页的链接字符串。
“inurl:”和“allinurl:”功能通常能提供非常精确的专题资料。
例一:检索表达式“inurl:mp3刘德华”
例二:检索表达式“allinurl:mp3刘德华”的检索结果
“intitle”和“allintitle”搜索的关键词包含在网页的标题之中
以上介绍的是Google的常用检索功能,除了个别功能是Google目前所特有的外(如特殊文本档式PDF、DOC等的检索),其余功能各大搜索引擎都已具备,只是在语法规定细节上略有区别,使用每种搜索引擎前,必须阅读有关搜索帮助文字说明。
3.6网上原文获取途径及信息源质量评价
3.6.1原文获取途径
1)直接点击检索结果中的链接
2)利用网络快照
所谓网络快照,是指搜索引擎(如百度、Google)先预览各网站,拍下网页的快照,并保存在服务器上供用户直接调取。
网络用户点击检索结果链接后,经常会遇到“该页无法显示”(找不到网页的错误信息),或者网页连接速度缓慢,要十几秒甚至几十秒才能打开的情况。原因很多,比如:网站服务器暂时中断或堵塞、网站已经更改链接等等。用户在不能链接所需网站时,网络快照(暂存的网页)即可救急,而且通过网页快照寻找资料要比常规链接的速度快得多。
3)利用免费参考网站
Findarticles.com(www.findarticles.com).
FreeMedicalJournals(www.freemedicaljournals.com).
4)利用文献传递服务
找到提供馆际互借或文献复制的有关单位的网址和电子邮件地址,发出电子邮件请求请求原文。
5)直接与作者本人联系
以书信或电子邮件等形式与作者本人联系,请求提供所需文献资料。
6)通过个人关系
3.6.2信息源质量评价
因特网信息与传统文献的出版形式不同,既没有固定的出版要求,又没有固定的出版形式,也没有经过像出版社这样的专门机构的评审、编辑与加工,因此,在获取与利用网络信息时,就有一个对网上信息质量如何评价的问题。如何判断网站所提供的数字、事实、描述等信息是权威的、客观的、可靠的、及时的?以下一些要素可供参考:
4网络信息检索几点体会
4.1选择合适的检索词。
尽量选专指词、特定概念词或非常用词,避免普通词、泛指概念。
4.2选择合适的检索工具
有时还需要直接检索网上数据库,或者专业性搜索引擎。
信息类型与搜索引擎的匹配
检索目的适用的搜索引擎
查找广泛、综合性信息雅虎中国,百度,Yahoo!,Infoseek,Lycos
查找具体的细节性信息天网,AltaVista,Infoseek
搜索标题和URLAltaVista,Yahoo!
搜索用户小组Google,AltaVista,Infoseek
全文检索(交叉学科问题)Excite,OpenText,AltaVista
图像、声音、视频文件Lycos,AltaVista
自然语言3721,网易,Infoseek,AskJeeves
模糊检索(不知道确切的关键词)Excite,WWWVirtualLibrary
学术性信息Excite,WWWVirtuallibrary
流行性问题雅虎中国,百度,Galaxy,Yahoo!
4.3使用搜索引擎的高级检索功能
4.4使用同义词、近义词、简称等
计算机电脑;高中英语第二册高二英语;清华大学清华;
digitalreferencevirtualreference;
informationretrievalinformationseeking
4.5建立收藏夹
4.6扩大知识面,与别人交流
对所检索课题的背景知识了解得越深越广,越容易检索到最符合需求的结果。每人都有其独特的思维习惯和知识结构,彼此交流可以有效地弥补个人知识盲区,开拓视野。
总之,及时获得真实准确的因特网信息是信息检索者的目标。面对海量的因特网信息,检索者必须了解因特网信息资源的组织和分布,掌握因特网信息检索的方法与技巧,制定正确的检索策略,只有这样,检索者才可能敏锐、准确地捕捉到有用的信息,提高检索效率和效果。
思考题
2简述网上原文信息获取途径及质量评价标准。
附录:因特网信息检索与利用学习资源
1网络资源
BareBones101:AVeryBasicWebSearchTutorial美国南卡州大学ufort图书馆网络检索基本教程。
SearchEngineWatch网络搜索技巧、搜索引擎最新动态等。
2期刊数据库资源
以“互联网”、“因特网”、“网络”“Internet/INTERNET”
3传统馆藏资源
中图分类号G252.7G354
《教师获取信息技能》
《信息检索—从手工到联机、光盘、因特网》
《网络学术信息资源及其检索》
《因特网信息资源检索与利用》
《网络与光盘文献检索》
《现代信息检索》
《电子电信信息资源检索与利用》
《法律文献检索教程》《法学文献信息检索》
《Internet上的化学化工资源》《Internet与化学信息导论》