网络信息检索与利用7.ppt

因特网的发展,逐渐改变了信息资源原有的属性,将文献信息数字化、应用环境网络化、技术手段多媒体化;运用情报学的理论与方法组织无序的网络信息,为用户服务;研究中文数据库的组织与检索技术将是我国情报学界必须重视的问题。网络信息资源开发利用是我国信息化建设的核心内容。在我国信息基础设施建设已初具规模的今天,网络信息资源建设显得极为重要与迫切。这需要情报工作者认真研究解决。此课题包括以下方面的内容:①网络信息组织;②网络信息检索策略;③基于内容检索探讨等第一章

网络信息资源

基础知识本章内容第一节因特网基础第二节网络信息资源第三节搜索引擎第四节搜索引擎使用技巧第五节搜索典型案例第一节

因特网基础一、因特网概述

因特网是英文Internet的中文译名,也有人译作互联网或国际互联网。1997年7月18日,全国科学名词审定委员会正式确定Internet译为因特网。因特网是当今世界上最大最流行的计算机网络,从资源角度看,它是一个集各部门、各领域的各种信息资源为一体的供网上用户共享的信息资源库。因特网现在已成为全球最大的数字化信息资源集散地,是人类的巨大财富。它包含的信息资源几乎包括了人类的全部活动。它包括商业、通信业、教育、科研、娱乐、政府部门、图书出版、工业生产、航空航天、建筑学、生物学、化学、物理、计算机、数学、地球科学、天文学、海洋学、医学、语言、文化、文学艺术、法律、政治与经济学、宗教、体育等许多方面。二、我国因特网发展概况因特网在我国的发展,大致经历了两个阶段:

1.1987年至1993年为第一阶段。

1987年9月20日,钱天白教授通过意大利公用分组网ITAPAC设在北京的PAD机,经由意大利ITAPAC和德国DATEX―P分组网,发出我国第一封电子邮件“越过长城,通向世界”,揭开了中国人使用Internet的序幕。实现了和德国卡尔斯鲁厄大学的连接,通讯速率最初为300bps.

进入90年代后,我国也开始投入巨资进行国内的计算机网络建设以及与Internet的连接我国因特网发展概况2.1994年至今为第二阶段。

1994年,我国建成第一个跨园区的光纤互联计算机网络——北京中关村地区教育与科研示范网络(NCFC),该网络把清华大学、北京大学的校园网,以及中科院在中关村地区的众多研究所通过光纤连成一体。它通过美国Sprint公司连入Internet的64K国际专线开通从中科院网络中心到美国的国际线路。

由教育部管理的中国教育与科研网(CERNET)

由中国科学院管理的中国科技网(CSTNET)

由信息产业部管理的中国金桥网(CHINAGBN)

上述大型互联网络都是经国务院批准、与Internet相连的国家级互联网络,国内其他网络作为接入单位与上述互联网络之一相连,通过它们实现与Internet的连接。

1997年6月,中国科学院在中国科学院计算机网络信息中心组建了中国互联网络信息中心(ChinaInternetNetworkInformationCenter,CNNIC),行使中国国家互联网络信息中心的职责。

四、常用Internet术语解析

IP地址:为了在网络环境下实现计算机之间的通信,网络中的每台计算机都必须有一个地址。Internet中的计算机均称为主机,其所拥有的地址称为IP地址。IP地址的长度为32位,分为4段,每段8位。用十位制数字表示,每段数字范围为1~254,段与段之间用句点隔开。例如:8。IP地址有两部分组成,一部分为网络地址,一部分为主机地址,上例中202.103.229是网络号,38是主机号常用Internet术语解析域名:在网络中,IP地址作为主机的一种数字型标识是最有效的,但不便于记忆。于是人们又提出一种字符型标识,这就是域名。域名所使用的合法字符包括字母、数字和字符,总长度不得超过255个字符。域名的结构为:主机号.机构名.网络名.最高层域名如北京大学校园网上的一台计算机域名为:I,其中表示中国教育科研网,pku表示北京大学,ibmstone表示主机名。常用Internet术语解析主页(HomePage):

例如:3/gpjs/jiansuoFrameset.htm

telnet:

另外,目前一种很受欢迎的服务——BBS(BulletinBoardSystem,电子公告牌系统,可让用户留言的电子公告牌),也是基于Telnet的。

3.文件传输服务(FTP)·

文件传输:是指计算机网络上主机之间传送文件,它是在网络通讯协议FTP(FileTransferProtocol)的支持下进行的。

用户一般不希望在远程联机情况下浏览存放在计算机上的文件,更乐意先将这些文件取回到自己计算机中,FTP正好能满足用户的这一需求。Internet网上的两台计算机在地理位置上无论相距多远,只要两者都支持FTP协议,网上的用户就能将一台计算机上的文件传送到另一台。

FTP的使用

可以以命令方式来访问,如录入ftp命令,然后录入你连接的远程主机的地址名:

ftp://4.网络新闻服务(Usenet)

网络新闻服务(Usenet)新闻组中对贴子的阅读、发表、回复等都是以E-mail的形式来完成的,用户将自己感兴趣的内容下载后,就可以脱机后再随时浏览。在经历了长期的发展后,新闻组日趋成熟,它的题材面广、信息量大、时效性强、自由度高,成为了许多专业人士进行网上信息传递的最主要途径之一。网络新闻服务(Usenet)

它是具有共同爱好的Internet用户相互交换意见的一种无形的用户交流网络,它相当于一个全球范围的电子公告牌系统。

网络新闻是按不同的专题组织的。志趣相同的用户借助网络上一些被称为新闻服务器的计算机开展各种类型的专题讨论。网络新闻服务(Usenet)

Gopher:是Internet上一个非常有名的信息查找系统,它将Internet上的文件组织成某种索引,很方便地将用户从Internet的一处带到另一处。允许用户使用层叠结构的菜单与文件,以发现和检索信息,它拥有世界上最大、最神奇的编目。

Gopher客户程序和Gopher服务器相连接,并能使用菜单结构显示其它的菜单、文档或文件,并索引。同时可通过Telnet远程访问其它应用程序。网上信息的浏览和查询服务

Gopher协议使得Internet上的所有Gopher客户程序,能够与Internet上的所有已“注册”的Gopher服务器进行对话。

Gopher是Internet工具中最激动人心的发展之一,它使新用户不必成为技术专家,就能迅速找到Internet爱好者们为之欢呼的许多优秀的资源网上信息的浏览和查询服务

Gopher是一个菜单式浏览工具,它是“树”型结构;WWW采用超链接,是“网”状结构,形如“蜘蛛网”。WWW与Gopher的区别随着多媒体技术的发展,在超文本结构中除文字外还可以链接图形、视频、声音等多媒体信息,因此人们引出了超媒体概念。换言之,(Hypermedia)超媒体=超文本+多媒体。

虽然WWW并不等于Internet,但是两者之间的关系又相当密切。对一些刚上网的用户,WWW(万维网)几乎成了Internet的代名词,这是因为万维网的发展非常迅速,它以其独特的超文本“链接”方式,方便的交互式图形界面和丰富多彩的内容,在整个Internet活动中占据的位置越来越重要第二节

网络信息资源本节主要内容一、网络信息资源的特点二、网络信息资源的类型三、常见网络数据库检索系统一、网络信息资源的特点

总体来讲,网络信息资源相比其他信息资源具有如下主要特点:1.离散性与共享性2.动态性和及时性3.不均匀性4.潜在的失控性网络信息资源的特点

2.动态性和及时性:网上信息资源的瞬息万变,极其丰富,信息的更新也很迅速。

3.不均匀性有两重含义,一是网络信息的质量不均匀,二是网络信息分布不均匀。

4.潜在的失控性任何个人团体只需具备上网条件能够使用HTML,就可以把任何信息放到网上,这种信息经过种种检索工具的标引,就可供用户检索,中间没有任何形式的质量控制,势必影响检索效果的查准率,从而导致检索效率的失控。二、网络信息资源的类型从文献信息检索角度看,我们可以把网络信息资源分成以下几种类型:

1、网上图书信息

2、电子期刊

3、专利信息

4、网上数据库

5、网上其它科技信息1、网上图书信息

Internet上提供的图书信息主要包括书目信息和电子图书.这些信息我们可从以下几个方面来获取:

(1)出版商提供的书目信息。国内外许多出版社都有自己的网站,通过Internet发布其出版物的目录、最新图书内容简介、价格等信息。

(2)数字图书馆提供的电子图书。数字图书馆是数字化生存时代的重要文化基础设施。利用这些图书馆,记载人类文明成果的图书资料就会方便地进入人们的生活网上图书信息

(1)出版商和文摘索引服务商提供的期刊检索服务。目前,国际上大多数主要的期刊出版都建立了全文数字化期刊数据库。并通过Internet提供其服务。网上电子期刊信息(2)

网络数据库信息服务商提供的服务。存储在网络服务器上的网络数据库品种多、质量高、大多由信息服务商或大型图书馆机构创建维护。(3)网络版期刊提供的服务。目前,许多期刊正在网上建立自已的网站,便于读者上网检索或提供免费的电子邮件现刊目录服务网上电子期刊信息

(4)文献情报部门或学术性机构提供的服务。文献情报部门或学术性机构通过自己的网站提供期刊或其它类型文献的网上检索服务,用户在有的网站检索二次文献信息的同时,还可以订购原始文献,原文可通过E-mail、传真、浏览、下载和联机打印等方式获取。3、网上专利信息

网上的专利信息资源可从以下几个方面来获取:

(1)利用专利管理机构网站提供的信息。专利管理机构网站主要是指各国(地区)或地方专利局的主页或者由它们及其下属机构开发的网站。这类网站提供的专利信息全面、权威、新颖。例如美国、加拿大、日本等国的专利数据库在INTERNET上均可得到免费使用。网上专利信息

(2)利用联机检索系统中的专利数据库。一些知名的联机检索系统中都包含与专利有关的数据库。如Dialog系统()、STN(/stn.html)系统等。

(3)利用数据库出版机构提供的信息。主要有Derwent公司、英国IEE公司(INSPEC)。

4、网上数据库信息

数据库可以分为五种类型(1)文献书目数据库:BibliographicDatabase(2)全文数据库:CompleteTextDatabases

(3)信息指南数据库:DictionaryDatabases

(4)数值型数据库:NumericDatabases

(5)其他类型的数据库(1)文献书目数据库文献书目数据库是存储某个领域原始文献的书目,即二次文献数据库,记录内容包括文献的题目、著者、原文出处、文摘、主题词等

大多数是印刷本检索工具的机读版,如

美国工程索引数据库(EI)

英国科学文摘数据库(INSPEC)

美国化学文摘数据库(CA)(2)全文数据库全文数据库是存储文献内容全文或其中主要部分的数据库,简称全文库.是将信息的全部文字和非文字内容转换成计算机可读形式.

全文数据库可以解决用户获取一次文献所遇到的困难,能向用户提供一步到位的查找原始文献的信息服务。据统计,在美国,全文数据库从1985年的28%增加到1995年的52%,其数量是书目型数据库的一倍,而书目型数据库则从57%下降到24%

我国已有《中国学术期刊全文数据库》、《书生之家数字图书馆》和《超星数字图书馆》等全文数据库产品(3)信息指南数据库

这类数据库主要包含数值数据,有的也包含文字,文字是用来定义数据所需的最小量的文字,有时称为文本—数值数据库(Textual-numericDatabases)(5)其他类型的数据库

除了上述四种基本的数据库类型之外,还有多种混合型的数据库形式特别是随着多媒体技术的迅速发展和广泛应用,将多媒体数据结构结合为一体,并统一进行存取、管理和应用的多媒体数据库已经问世.5、网上其它科技信息

Internet上除了网上图书信息、电子期刊、专利信息、数据库信息外,还有大量的会议信息、科技政策法规、学位论文、技术标准、产品样本目录、科技报告、统计数据、科技新闻、组织机构、电子论坛、通讯讨论组和数据库等,这些资源的实用性也很强。三、常见网络数据库检索系统1.Ei美国工程索引2.SCIExpanded(科学引文索引扩展)3.ISIProceedings(科学会议录索引)4.CSSCI(中文社会科学引文索引)5.ASTP(威尔逊应用科学与技术数据库)6.CSA(剑桥科学文摘)7.OCLCFirstSearch(联机计算机图书馆中心)常见网络数据库检索系统

8.PQDD(国际学位论文文摘)

9.USPTO(美国专利与商标办公室)

10.CNKI

11.维普信息资源系统

12.万方数据资源系统

13.其他数据库资源1.Ei美国工程索引美国工程索引(Ei),由美国工程信息公司制作而成,收录报道了世界上有关工程技术方面的主要文献,包括物理、化学、机械、工程等各方面内容.EiCompendexWeb是《工程索引》的网络版,包括光盘版EiCompendex和EiPageOne两个数据库的内容

EiCompendexWeb是通过EiVillage(工程信息村)基于因特网提供信息检索服务Ei美国工程索引

EiVillage是美国工程信息公司(EngineeringInformationInc)1995年推出的一个网络信息集成服务站点

1998年4月,EiVillage在我国清华大学图书馆设立了镜像站点,目前,我国已有二十多家高校图书馆购买了网络使用权。

凡购买使用权的高校校园网上的每个IP机都可以通过教育科研网直接访问清华大学的EiVillage镜像服务器2.SCIExpanded

(科学引文索引扩展)

SCIExpanded网络数据库可通过ISIWebofScience进行检索

WebofScience中也包括三种引文数据库

艺术与人文引文索引

Arts&HumanitiesCitationIndex

科学引文索引扩展

ScienceCitationIndex

社会科学引文索引

SocialScienceCitationIndex3.ISIProceedings

(科学会议录索引)

ISIproceedings是美国ISTP网络版,由美国科技信息所(InstituteforScientificInformation,简称ISI)编辑出版

ISIProceedings包括以下两个子数据库:

科学技术会议录索引ISTP

社会科学及人文科学会议录索引IndextoSocialScience&HumanitiesProceedings,ISSHP4.CSSCI

(中文社会科学引文索引)

CSSCI是中文社会科学引文索引(ChineseSocialSciencesCitationIndex)的简称,它是由南京大学中国社会科学研究评价中心开发研制的数据库,用来检索中文社会科学领域的论文收录和文献被引用情况。5.CSSCI

CSSCI2000年、2001年度数据库收录期刊共收录管理学、马克思主义、哲学、宗教学、语言学、中国文学、外国文学、艺术学、历史学、考古学、经济学、政治学、法学、社会学、民族学、新闻与传播学、图书情报与档案学、教育学、体育学、统计学、心理学、社科总论、高校综合性社科学报、人文、经济地理、环境科学等社会科学领域的中文期刊419种,另加港台澳地区及海外华文期刊16种6.ASTP

(威尔逊应用科学与技术数据库)

ASTP是威尔逊应用科学与技术(AppliedScience&TechnologyPlus)数据库的缩写,由美国ProQuestInformationandLearning公司出版

该数据库主题涉及范围包括:计算机科学、工程技术、物理学等收录科学技术领域内重要的学术期刊769种7.OCLCFirstSearch

OCLC(OnlineComputerLibraryCenter)(联机计算机图书馆中心),总部在美国俄亥俄州都伯林,是世界上最大的提供文献信息服务的机构之一

它是1967年由美国大学校长们发起成立的,旨在实现图书馆文献信息资源的共享,减少获取文献信息的费用

1979年推出的馆际互借服务迄今已有6600多个图书馆使用,互借达1.05亿次

OCLCFirstSearch

我国CALIS(中国高等教育文献保障系统)采用年订购的方式购买了OCLC基础组的11个数据库的使用权,211的61所高校可以免费检索8.CSA(剑桥科学文摘)

CSA是(CambridgeScientificAbstracts)的简称,它由美国一家著名的私人信息公司编辑出版

目前CSA通过因特网可提供70多个数据库的检索服务,内容范围包括生命科学、环境与水科学、计算机科学、材料科学与工程、航空航天以及人文社会科学。9.PQDD

(国际学位论文文摘数据库)

PQDD(ProQuestDigitalDissertations)是由美国Bell&Howell信息学术公司(Bell&HowellInformationandLearning)提供的“国际学位论文文摘”数据库的Web版,它是目前世界上独一无二的最具权威性的博士、硕士学位论文检索数据库,主要收录来自美国、加拿大和欧洲1000多所大学的博、硕士论文的题录、文摘共160余万篇。该数据库每周更新一次数据,每年大约新增47000篇博士论文和12000篇硕士论文10.USPTO

美国专利与商标办公室

USPTO是美国专利与商标办公室(UnitedStatesPatentandTrademarkOffice)的简称,通过因特网提供书目和全文专利数据库检索,是非常重要的专利信息资源

上网用户可免费检索该数据库,并可浏览检索到的专利的题目、文摘及其包括附图在内的专利说明书等信息11.CNKI中国知识基础设施工程中国期刊网全文数据库是CNKI知识创新网中最具特色的一个文献数据库。CNKI即中国知识基础设施(ChinaNationalKnowledgeInfrastructure)工程,是由清华同方光盘股份有限公司、中国学术期刊(光盘版)电子杂志社、光盘国家工程研究中心等单位,于1999年6月在《中国学术期刊(光盘版)》(CAJ-CD)和中国期刊网(CJN)全文数据库建设的基础上研制开发的一项规模更大、内容更广、结构更系统的知识信息化建设项目12.维普信息资源系统重庆维普资讯有限公司研制开发的网络信息资源。维普资讯有限公司是科学技术部西南信息中心下属的一家大型的专业化数据公司。自1989年以来,一直致力于报刊等信息资源的深层次开发和推广应用

收录有中文报纸1000种,中文期刊12000种,外文期刊4000种,拥有固定客户2000余家13.万方数据资源系统万方数据资源系统(ChinaInfo)是北京万方数据股份有限公司在中国科技信息研究所数十年积累的全部信息服务资源的基础上建立起来的,形成以科技信息为主,集经济、金融、社会、人文信息为一体,实现网络化服务的信息资源系统14.其他数据库资源各大高校图书馆一般都提供各自购买的数据库资源,在校园网通常可以免费使用很多数据库检索系统采用一站式的跨库检索方式,便于用户使用。主要有:上网图书馆书目数据库的利用。如:北京图书馆公共检索服务系统的网址为:/;

其他数据库资源网上虚拟图书馆的利用,如:中国数字图书馆的网址为:

/index.php。现代数据库内容涉及几乎所有知识领域

据国家科学技术部统计,目前世界文献信息主要包括十大类型:期刊、研究报告、会议文献、政府出版物、标准文献、专利文献、产品样本、技术档案和学位论文。现有数据库中均已涵盖,但我国数据库的规模和数量都略显不足.第三节

搜索引擎一、搜索引擎的定义

搜索引擎是专门提供信息查询服务的网站安装在其服务器上的一种能在网上漫游并搜集它所得到的信息,同时自动生成本地索引的软件。它是因特网上最为有效的信息导航工具,是网上冲浪的得力助手。由于这种服务都是一些著名的站点提供的,所以有人直接称这些站点即为搜索引擎。在万维网中,也有人把装有这种软件的WWW服务器视为搜索引擎。他主要分为:

单搜索引擎:用于检索的单个搜索引擎,如:百度、google

多搜索引擎:多搜索引擎是一个搜索引擎包含多个单搜索引擎,其作用是将输入的检索词在所包含的多个单搜索引擎中进行查找,并将命中的搜索引擎和其查到的页面数列出,帮助用户选择合适的搜索引擎。如:网址之家二、搜索引擎的发展历史搜索引擎的起源——Archie所有搜索引擎的祖先,是1990年由蒙特利尔的McGillUniversity三名学生发明的Archie(ArchieFAQ)。AlanEmtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。

Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。早期的另一个搜索工具Gopher由于Archie深受欢迎,受其启发,NevadaSystemComputingServices大学于1993年开发了一个Gopher(GopherFAQ)搜索工具Veronica(VeronicaFAQ)。Jughead是后来另一个Gopher搜索工具。现在这个工具主要用在国外大型图书馆的信息检索上。第二代搜索:目录式搜索Yahoo!

1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和DavidFilo共同创办了(Yahoo)。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。Yahoo!几乎成为20世纪90年代的因特网的代名词。好听不好用的元搜索引擎

1995年,一种新的搜索引擎形式出现了——元搜索引擎(MetaSearchEngine)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生EricSelberg

和OrenEtzioni的Metacrawler。元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。第三代搜索:网页搜索它们都属于网页自动搜索引擎,有的还带有智能分析或FTP、P2P搜索功能三、搜索引擎的工作原理搜索引擎工作原理搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。搜索引擎至少由三部分组成:

爬行器(即机器人、蜘蛛等搜索程序)索引生成器(即网页索引数据库)查询检索器(即用户检索界面)随着搜索引擎的发展,许多搜索引擎在此基础上增加特色功能。如百度增加了监控程序。搜索引擎的工作原理就向超市索引生成器(网页数据库)爬行器(蜘蛛)查询检索器(用户查询)因特网第一步:从互联网上抓取网页利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。

最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。第三步:检索界面的建立每个搜索引擎都必须向用户提供一个良好的信息查询界面,一般包括分类目录及关键词两种信息查询途径。四、搜索引擎检索方法

1.分类检索所谓分类检索就是指利用搜索引擎提供的分类目录,由上级类目逐级向下级类目查询的方式。各网站通过人工分类建立上下级所属类目。这种方式较为直观,便于族性检索,利于查全率,但查准率较低,且各搜索站点分类不一,为使用带来一定困难。搜狐、新浪都属于一种分类搜索。

2.关键词检索关键词查询是搜索引擎提供的一种快速、高效的查询方式,进入搜索引擎网页后,在关键词查询框中输入想要查询的关键词,然后单击“查询”按扭即可。这种方式便于特性检索,利于提高查准率。

(1)简单关键词查询

(2)逻辑关系查询搜索引擎检索方法五、两类搜索引擎及网页搜索引擎两类搜索引擎的代表1以网页搜索为主的搜索引擎百度、Google、Yahoo等迅雷、天网Maze等2以FTP和P2P资源搜索为主的搜索引擎第一类搜索引擎:

网页搜索引擎

以Google和百度为代表1、Google搜索引擎

Google搜索引擎诞生于斯坦福大学的一个学生宿舍里,然后迅速传播到全球的信息搜索者。

Google目前被公认为万维网上最大的搜索引擎,它提供了简单易用的免费服务,使用户能够访问一个包含超过80亿个网址的索引。“Google”来自于数学名词“Googol”,Googol表示一个1后面跟着100个零。GoogleInt.使用这一术语体现了公司整合网上海量信息的远大目标。地址:/Google简介:

LarryPage,创始人之一,主管产品的总裁。密西根安娜堡大学的荣誉毕业生,拥有理工科学士学位。他还因其出色的领导才能获得过多项荣誉,以奖励他对工学院的贡献。他曾担任密西根大学EtaKappaNu荣誉学会的会长。目前他暂时从斯坦福大学计算机研究所博士班休学,其指导教授是TerryWinograd博士。Google就是由Page在斯坦福大学发起的研究项目转变而来的。Google简介SergeyBrin,创始人之一,主管技术的总裁。出生于莫斯科,是马里兰大学校本部的荣誉毕业生,拥有数学专业和计算机专业的理学士学位。已取得斯坦福大学计算机专业硕士学位,目前暂时从博士班休学。29岁的Sergey是美国国家科学基金会的奖学金得主。他在斯坦福

遇到了LarryPage并参与了后来成为

Google的研究项目。他们于1998年

共同创立了Google。

Google简介google的成功得益于其强大的功能和独到的特点:

google检索网页数量达24亿,搜索引擎中排名第一;

google支持多达132种语言,包括简体中文和繁体中文;

google网站只提供搜索引擎功能,没有花里胡哨的累赘;

google速度极快,年初时据说有15000多台服务器,200多条t3级宽带;

Google简介

google的专利网页级别技术pagerank能够提供准确率极高的搜索结果;

google具有独到的图片搜索功能;

google具有强大的新闻组搜索功能;

google具有二进制文件搜索功能(pdf,doc,swf)Google的特殊功能(部分)查找非HTML文件:可以支持13种非HTML文件的搜索,如PDF,DOC,PPT,XLS,SWF。例如查找doc文本文件,只需搜索“关键词filetype:doc”即可。网页快照:Google在访问网站时,会将看过的网页复制一份网页快照,以备在找不到原来的网页时使用。单击“网页快照”后,将看到Google将该网页编入索引时的页面。Google依据这些快照来分析网页是否符合您的需求。(不好用)类似网页:如果你对某一网站的内容很感兴趣,但又嫌资料不够,单击“类似网页”Google会帮你找到其他有类似资料的网站;Google的特殊功能按链接搜索:查询“link:”显示所有指向该网址的网页。例如,“link:”将找出所有指向网易主页的网页。手气不错:按下“手气不错”按钮将自动进入Google查询到的第一个网页。指定网域:如果要在某个特定的域或站点中进行搜索时可输入“***site:***.com”。如在新浪网中搜索“新闻”可输入“新闻site:”Google的特殊功能其它功能中英文字典:英译汉输入“fyapple”

汉译英输入“翻译苹果”定义:输入“定义:文献”或“define:HTML”计算器:Google为用户提供了一个内置计算器。天气查询:检索“哈尔滨天气”或“shanghaitq”Google返回的网站链接会提供最新的当地天气状况和天气预报。邮编区号:输入“邮编哈尔滨”、“YB150000”、“区号0451”、“哈尔滨QH”手机号码:输入可查询手机号的归属地。股票查询:输入“中国石化股票”或“GP600028”可查询股票价格及股市行情Google

使用详解Google的初级检索方法1、

搜索结果要求包含两个及两个以上关键字一般搜索引擎需要在多个关键字之间加上“”,而google无需用明文的“”来表示逻辑“与”操作,只要空格就可以了。现在,我们需要了解一下搜索引擎的历史,因此期望搜得的网页上有“搜索引擎”和“历史”两个关键字。Google的初级检索方法示例:搜索所有包含关键词“搜索引擎”和“历史”的中文网页

搜索:“搜索引擎历史”

用了两个关键字,查询结果有7万多项。但查看一下搜索结果,发现前列的绝大部分结果还是不符合要求,大部分网页涉及的“历史”,并不是我们所需要的“搜索引擎的历史”。

搜索结果要求不包含某些特定信息

google用减号“-”表示逻辑“非”操作。“a-b”表示搜索包含a但没有b的网页。

示例:搜索所有包含“搜索引擎”和“历史”但不含“文化”、“中国历史”和“世界历史”的中文网页

搜索:“搜索引擎

历史

-文化

-中国历史

-世界历史”Google的初级检索方法结果:已搜索有关搜索引擎

-世界历史的中文(简体)网页。

共约有36,800项查询结果,这是第1-10项

搜索用时0.22秒。

注意:这里的“”和“-”号,是英文字符,而不是中文字符的“”和“-”。此外,操作符与作用的关键字之间,不能有空格。比如“搜索引擎

-文化”,搜索引擎将视为关键字为“搜索引擎”和“文化”的逻辑“与”操作,中间的“-”被忽略。Google的初级检索方法3.搜索结果至少包含多个关键字中的任意一个。

google用大写的“or”表示逻辑“或”操作。搜索“aorb”,意思就是说,搜索的网页中,要么有a,要么有b,要么同时有a和b。这样可以进一步的精简搜索结果。

示例:搜索如下网页,要求必须含有“搜索引擎”和“历史”,没有“文化”,可以含有以下关键字中人任何一个或者多个:“archie”、“蜘蛛”、“lycos”、“yahoo”。

Google的初级检索方法搜索:“搜索引擎

archieor蜘蛛

orlycosoryahoo-文化”

结果:已搜索有关搜索引擎

orlycosoryahoo-文化的中文(简体)网页。

共约有8,400项查询结果,这是第1-10项

搜索用时0.16秒。

注意:“或”操作必须用大写的“OR”,而不是小写的“or”。

杂项语法

1.通配符问题

很多搜索引擎支持通配符号,如“*”代表一连串字符,“”代表单个字符等。google对通配符支持有限。它目前只可以用“*”来替代单个字符,而且包含“*”必须用“”引起来。比如,“”以*治国“”,表示搜索第一个为“以”,末两个为“治国”的四字短语,中间的“*”可以为任何字符。

2.关键字的字母大小写

google对英文字符大小写不敏感,“god”和“God”搜索的结果是一样的杂项语法3、搜索整个短语或者句子

google的关键字可以是单词(中间没有空格),也可以是短语(中间有空格)。但是,用短语做关键字,必须加英文引号,否则空格会被当作“与”操作符。

示例:搜索关于第一次世界大战的英文信息。搜索“worldwari”.

结果:已向英特网搜索“worldwari”.共约有937,000项查询结果,这是第1-10项

搜索用时0.06秒。

杂项语法4、搜索引擎忽略的字符以及强制搜索

google对一些网路上出现频率极高的英文单词,如“i”、“com”、“www”等,以及一些符号如“*”、“.”等,作忽略处理。如果要对忽略的关键字进行强制搜索,则需要在该关键字前加上明文的“+”号。

杂项语法示例:搜索关于www起源的一些历史资料。

搜索:“www的历史

internet”

结果:以下的字词因为使用过于频繁,没有被列入搜索范围:www的.已搜索有关www的历史

internet的中文(简体)网页。

共约有75,100项查询结果,这是第1-10项

搜索用时0.22秒杂项语法

我们看到,搜索“www的历史

internet”,但搜索引擎把“www”和“的”都省略了。于是上述搜索只搜索了“历史”和“internet”。这显然不符合要求。这里我顺便说一点搜索引擎分词的知识。当我们在搜索“www的历史”的时候,搜索引擎实际上把这个短语分成三部分,“www”、“的”和“历史”分别来检索,这就是搜索引擎的分词。所以尽管你输入了连续的“www的历史”,但搜索引擎还是把这个短语当成三个关键字分别检索。

杂项语法如果要对忽略的关键字进行强制搜索,则需要在该关键字前加上明文的“+”号。搜索:“+www+的历史

结果:已搜索有关+www+的历史

共约有25,000项查询结果,这是第1-10项

搜索用时0.05秒。

另一个强制搜索的方法是把上述的关键字用英文双引号引起来。在上例““worldwari””中,“i”其实也是忽略词,但因为被英文双引号引起来,搜索引擎就强制搜索这一特定短语。

注意:大部分常用英文符号(如问号,句号,逗号等)无法成为搜索关键字,加强制也不行。

进阶搜索上面已经探讨了google的一些最基础搜索语法。通常而言,这些简单的搜索语法已经能解决绝大部分问题了。不过,如果想更迅速更贴切找到需要的信息,你还需要了解更多的东西进阶搜索

1、对搜索的网站进行限制

“site”:表示搜索结果局限于某个具体网站或者网站频道,如“”、“”,或者是某个域名,如“”、“com”等等。如果是要排除某网站或者域名范围内的页面,只需用“-网站/域名”。

进阶搜索示例:搜索中文教育科研网站()上关于搜索引擎技巧的页面。

技巧

site:”

site:的中文(简体)网页。

共约有608项查询结果,这是第1-10项

进阶搜索示例:搜索“天府茶馆”网站上关于

诸葛亮的信息表达式:site:诸葛亮

示例:搜索新浪科技频道中关于搜索引擎技巧的信息。

进阶搜索2、在某一类文件中查找信息

filetype:是google开发的非常强大实用的一个搜索语法。也就是说,google不仅能搜索一般的文字页面,还能对某些二进制文档进行检索。目前,google已经能检索微软的office文档如.xls、.ppt、.doc,.rtf,wordperfect文档,lotus1-2-3文档,adobe的.pdf文档,shockwave的.swf文档(flash动画)等。其中最实用的文档搜索是pdf搜索。pdf是adobe公司开发的电子文档格式,现在已经成为互联网的电子化出版标准。进阶搜索目前google检索的pdf文档大约有2500万左右,大约占所有索引的二进制文档数量的80%。pdf文档通常是一些图文并茂的综合性文档,提供的资讯一般比较集中全面示例:搜索几个资产负债表的office文档。

搜索:“资产负债表

filetype:docorfiletype:xlsorfiletype:ppt”

注意:下载的office文件可能含有宏病毒,谨慎操作。

进阶搜索

3.搜索的关键字包含在url链接中

进阶搜索示例:查找midi曲“沧海一声笑”。

搜索:“inurl:midi“沧海一声笑””

注意:“inurl:”后面不能有空格,google也不对url符号如“/”进行搜索。例如,google会把“cgi-bin/phf”中的“/”当成空格处理。

进阶搜索“allinurl”语法返回的网页的链接中包含所有作用关键字。这个查询的关键字只集中于网页的链接字符串。

示例:查找可能具有phf安全漏洞的公司网站。通常这些网站的cgi-bin目录中含有phf脚本程序(这个脚本是不安全的),表现在链接中就是“域名/cgi-bin/phf”。

搜索:“allinurl:"cgi-bin"phf+com”

结果:已向英特网搜索allinurl:"cgi-bin"phf+com.共约有51项查询结果,这是第1-10项

搜索用时0.11秒。

进阶搜索4、搜索的关键字包含在网页标题中

示例:查找日本明星藤原纪香的照片集。

搜索:“intitle:藤原纪香

"写真集"”进阶搜索

5.搜索所有链接到某个url地址的网页

如果你拥有一个个人网站,估计很想知道有多少人对你的网站作了链接。而“link”语法就能让你迅速达到这个目的。

示例:搜索所有含指向华军软件园“”链接的网页。

搜索:“link:”进阶搜索注意:“link”不能与其他语法相混合操作,所以“link:”后面即使有空格,也将被google忽略。另外还要说明的是,link只列出google索引链接很小一部分,而非全部,所以如果你用google没有搜到链到你的主页的链接,也不必灰心丧气。

图片搜索

google自称可以检索390,000,000张图片,并称自己为“互联网上最好用的图像搜索工具”。从使用结果来看,google的图片搜索的确不错,但个人以为比altavista的还是要差一些,主要体现在检索图片数量比不上av,匹配度比av的图片搜索器也差了些。但altavista国内用户无法正常访问因此对中国用户而言,google的图片搜索引擎已经是最好的。图片搜索

google首页点击“图像”链接就进入了google的图像搜索界面“”。你可以在关键字栏位内输入描述图像内容的关键字,如“britneyspears”,就会搜索到大量的小甜甜布兰妮的图片。图片文件名完全符合关键字的结果排列比较靠前,然后才按照普通的页面搜索时的标准排列。

google图像搜索目前支持的语法包括基本的搜索语法如“+”、“-”、“or”、“site”和“filetype:”。其中“filetype:”的后缀只能是几种限定的图片类似,如jpg,gif等。

示例:查找新浪网上本拉登的图片

搜索:“拉登

or拉丹

结果:搜索有关

拉登

site:的图片。

共有6项查询结果,这是第1-6项。

搜索用时0.36秒。图片搜索

作为专门的图片搜索引擎,实际上有其特殊的用途。

举个例子,互联网上本拉登的照片成千上万,但是,它们都是分散的,往往随机的分布于各种新闻报道中。如果用搜索图片库的方式(最容易想到的如“benladinphoto”),来搜索本拉登的照片,显然是不恰当的,因为很少有人专门为拉登建一个在线相册。在这个时候,就派上用场了网页快照网页快照是google抓下来缓存在服务器上的网页。它有三个作用:

第一,

如果原地址打开很慢,那么可以直接查看google缓存页面,因为google服务器速度极快。第二,

如果原链接已经死掉或者因为网络的原因暂时链接不通,那么可以通过google快照看到该页面信息。当然,快照内容不是该页最新页面。

第三,

如果打开的页面信息量巨大,一下子找不到关键词所在位置,那么可以通过google快照,因为快照中google用黄色表明关键字位置。

网页翻译

你懂英文,但是你不见得就懂德文、法文、拉丁文。如果搜索出来的页面是这些语言怎么办?呵呵,google提供了网页翻译功能!!虽然目前只支持有限的拉丁语、法语、西班牙语、德语和葡萄牙文,这是个杰出功能。

网页翻译试着做以下搜索:“bigbangsite:fr”。这个表示查找关于宇宙大爆炸的法文网页。看第一条结果:

thebigbangwebsite-[translatethispage]

...aproposdebigbang.lederniernuméroendate.lesanciensnuméros.autres

activités.concertsprogressifsenfrance.emissionsderadio.liens.

perso.club-internet.fr/calyx/bigbang/-3k-cached-similarpages

有点晕。没关系,点击“translatethispage”按钮。再看结果,嗯,大致能看明白,这原来是个叫“bigbang”的乐队的网站,与大爆炸无关...

Google其他功能单词纠错英文单词经常拼写错误。但google有纠错功能。比如在写上文的时候,我要用到英文单词“tutorial”,我只是依稀记得好像是“tatorial”的样子,但不肯定,于是用google查了一下,它马上提醒:“您要找的会不会是:

tutorial”,呵呵,正是这个单词。Google其他功能繁简转换

对中文用户而言,常希望能同时检索繁体和简体信息。google能做到这一点。google默认使用繁简自动转换功能,因此你输入的简体关键字也将被转换成繁体做检索。这样省了不少力气。当然,如果你不希望这样的话,也可以在“使用偏好”中把这个选项关掉。第四节

搜索引擎

使用技巧简单搜索输入查询字符串搜索引擎返回结果搜索结果分析(Google)网页标题标题上下文本

ABC网页地址

D网页大小

提炼搜索关键词★细化搜索条件★用好逻辑符号★强制搜索如何运用“关键词原则”

提炼搜索关键词学会从复杂搜索意图中提炼出最具代表性和指示性的关键词,对提高信息查询效率至关重要,这方面的技巧是搜索技巧的基础。如:搜索与秦朝历史文化有关的资料,可提炼关键词:“秦始皇”、“兵马俑”。

搜索条件越具体,搜索引擎返回的结果就越精确,有时多输入一两个关键词效果就完全不同,这是搜索的基本技巧之一。如:要了解中国戏剧中京剧的服饰及脸谱知识,搜索条件可为“京剧”、“脸谱”。

注意:有些数据库不遵循此规律,如《人民日报全文库》中,逻辑与则为“+”,在检索前需看使用说明。》逻辑与(AND)*缩检假设A和B是两个

THE END
1.资源动态关于正式开通“可知”电子书平台的通知“可知”平台是由电子工业出版社、人民邮电出版社、化学工业出版社、机械工业出版社、北京大学出版社、中国人民大学出版社、高等教育出版社、人民卫生出版社、社科文献出版社、商务印书馆、中信出版社等300多家知名出版社入驻并直接提供数字资源的知识服务平台,是国内最新专业电子图书的阅读应用平台,已入选中共中央宣传部https://library.suda.edu.cn/54/b4/c4023a611508/page.htm
2.数字图书馆市场报告:创新科技为数字图书馆建设奠定技术基石,赋能根据恒州诚思发布的数字图书馆市场报告,这份报告提供数字图书馆市场的情况,定义,分类,应用和产业链结构,同时还讨论发展政策和计划以及制造流程和成本结构,分析数字图书馆市场的发展现状与未来市场趋势。并从生产与消费两个角度来分析数字图书馆市场的主要生产地区、主要消费地区以及主要的生产商。 https://yhresearch.cn/news/8280/digital-library
3.《儒藏》数字化项目启动,相关成果将在“识典古籍”上线12月9日,《儒藏》数字化项目启动仪式在北京大学举行。 《儒藏》工程是新中国成立以来最大规模地系统整理海内外儒学典籍的一项基础性文化建设工程,将收录自先秦至清末重要儒学文献。 2003年,北大成立《儒藏》编纂工作小组。由于体量巨大,最终决定《儒藏》工程将分两步走,先编“精华编”,再编全本。 https://www.thepaper.cn/newsDetail_forward_29608121
4.知识竞赛题库A、公共图书馆 B、地区图书馆 C、数字图书馆 D、专业图书馆 45、2003年,最后一个与共享工程国家中心签订实施协议的省级分中心是:(C) A、贵州省分中心 B、青海省分中心 C、内蒙古分中心 D、宁夏分中心 46、在服务上,共享工程积极开展“五个走进”活动,其中四个分别是走进社区,走进军营、走进校园、走进企业,https://www.360doc.cn/article/30620648_533802261.html
5.古籍扫描仪古籍数字化解决方案随着古籍数字化资源的开发和建设,图书馆馆藏古籍资源的内容和形式也发生了变化,同时也意味着图书馆资源采集的方法和策略也要有所改变。1 图书馆古籍数字化资源采集的背景 1.1大量古籍数字化资源的开发 古籍数字化资源的开发起步于20世纪80年代初,不过,当时并没有“数字化”这一概念,而是称作“电脑化”或“电子化”https://www.360wenmi.com/f/fileon7dfc6f.html
6.想看古籍,去哪儿找?大学数字图书馆国际合作计划 CADAL是以中文古籍、民国书刊、中文现代图书等为主的数字资源库,将包含理、工、农、医、人文、社科等多种学科的科学技术与文化艺术,包括书画、建筑工程、篆刻、戏剧、工艺品等在内的多种类型媒体资源进行数字化整合,向参与建设的高等院校、学术机构提供教https://mp.weixin.qq.com/s?__biz=MjM5NzA3NzY1Ng==&mid=2652710496&idx=1&sn=de4648a63197310d7fb45229f29e5a58&chksm=bc64b4cce422bfeb33ffb00a4f4d3cf8cdec3cca540ee2d0fe59ef0894362ea6c12523614101&scene=27
7.第三章近代史料的整《民国时期广东财政史料》系从广东省立中山图书馆和广东省档案馆所藏的官方数据和档案中,筛选辑录各种数据资料37种,档案204件,分为财政法规、财政概况、财政统计、田赋粮食、财政历史档案五大类别,较为全面地反映了民国时期广东的财政经济发展状况。《民国安顺县商会档案史料汇编》包括安顺县商会简况、章程法规、年度工作https://www.eyearbook.cn/xkfzbg/articleInfo?zid=a032&bookcode=DDZGJDSSLXYJ
8.访问FULink福建省高校数字图书馆的官方网址是()?声明: 本网站大部分资源来源于用户创建编辑,上传,机构合作,自有兼职答题团队,如有侵犯了你的权益,请发送邮箱到feedback@deepthink.net.cn 本网站将在三个工作日内移除相关内容,刷刷题对内容所造成的任何后果不承担法律上的任何义务或责任 https://www.shuashuati.com/ti/3db24da405de404cbbdef956aaae30d9.html?fm=bdbdsa17927a800395df0584ad1b41ef4b6bd
9.中国艺术史论文通用12篇2.2.3针对数字化信息环境的嵌入式学科服务 针对数字化信息环境,图书馆需开展的嵌入式学科服务是指图书馆将学科服务融入到用户的数字化信息环境中,用户通过网络利用计算机设备或者移动通讯设备随时随地享受图书馆提供的服务。 美术院校图书馆可以积极开展数字图书馆建设,将图书馆服务融入到用户的数字化学习环境中去。美术院https://zgycxb.xueshu.com/haowen/77207.html
10.伟大的技艺·文明的延续——古籍保护中的科技应用此图为图书馆中古籍管理不同环节的关系 2.古籍的数字化创新 此外,数字化也是古籍保护与传承中的重要部分。要积极探索信息技术在古籍保护方面的应用,加强古籍数字化和缩微工作,进一步推动古籍的整理、出版和再利用。具体内容有文本数字化处理、数字化用字规范、知识服务探索和资源产品运营等一系列创新发展,推动对古籍文化https://www.douban.com/note/767530285/
11.图书馆知识竞赛:图书馆知识竞赛考试试题(题库版)考试题库1、单项选择题 世界上最大的图书馆是()。 A、中国国家图书馆 B、美国国会图书馆 C、英国图书馆 D、法国国家图书馆 点击查看答案 2、单项选择题 贵州数字图书馆的“报纸数据库”,收录2000年以来中国国内公开发行的540多种重要报纸,累积报纸全文文献700多万篇。该库可以用下面哪些字段进行检索?() A、B.C.Dhttp://www.91exam.org/exam/87-3583/3583985.html
12.08综述——加速推进数字经济发展2022近年来,互联网、大数据、云计算、人工智能、区块链等技术加速创新,日益融入经济社会发展各领域全过程,数字经济发展速度之快、辐射范围之广、影响程度之深前所未有,正在成为重组全球要素资源、重塑全球经济结构、改变全球竞争格局的关键力量。 随着“数据”成为新的生产要素,与劳动、资本、技术、土地一起形成新的经济范式https://www.fjlib.net/zt/fjstsgjcxx/zbzl/lhtk/2022_03/202112/t20211231_469046.htm
13.02139计算机信息检索[成都理工大学自考复习]6.1.4电子图书数据库和服务提供站点 1、Apabi数字资源平台(http://ebook.lib.apabi.com) 方正Apabi数字图书馆是北京大学方正公司开发的数字图书系统。(2019.4选择题) 2、古腾堡计划(http://promo.net/pg/) 是互联网上最早的免费电子图书生产者,现在它几乎平均每一天都生产一部电子书。 https://blog.csdn.net/qq_45163041/article/details/121454317
14.说明文的说明方法相信大家都不可避免地要接触到作文吧,特别是条理性极强的说明文,说明文通过对客观事物的说明或对抽象事理的阐释,使人们对事物的形态、构造、性质、种类、成因、功能、关系或对事理的概念、特点、来源、演变、异同等能有科学的认识。那么什么样的说明文才是好的呢?下面是小编精心整理的说明文的说明方法,欢迎大家借鉴与https://www.yuwenmi.com/zuowen/shuomingwen/3623859.html
15.馆藏文献优先数字化的策略思考11篇(全文)数字化活动的主要目的是提高对图书馆馆藏的获取,或通过提供数字化拷贝,保护珍贵或易损的馆藏文献。鉴于此,笔者认为以下各类文献应当优先考虑数字化。 1.1 优先数字化有利于国家和民族的知识积累、传播与创新 这一优先数字化原则是以符合本国利益、传播本国文化为目的的。考察许多国家数字图书馆的网页,都可以明显地感https://www.99xueshu.com/w/filefgdy4ydx.html
16.数字化学习资源及其应用专题培训用户利用搜索引擎检索某一学科或领域的信息时,往往会得到成千上万的记录结果,其中充斥着大量非学术性的站点信息,很大程度上加大了用户选择信息的难度,因此,面向学术研究的数字图书馆应运而生。 数字图书馆实质上是一种互联网的应用工具,将互联网上相关的各种资源的URL地址(包括有关的研究机构、实验室、电子书籍、学http://www.zpxx.wj.czedu.cn/html/article731078.html