众所周知,搜索引擎在我们生活里面是离不开的,特别是对一个程序员来说能够好好的利用好这个资源可以使我们的做事的效率提高很多,,达到事半功倍的效果!今天我们就来看一看如何优雅的使用搜索引擎!
GOOGLE支持多达132种语言,包括简体中文和繁体中文;GOOGLE网站只提供搜索引擎功能,没有花里胡哨的累赘;GOOGLE速度极快,据说有8000多台服务器,200多条T3级宽带;GOOGLE的专利网页级别技术PageRank能够提供高命中率的搜索结果;GOOGLE的搜索结果摘录查询网页的部分具体内容,而不仅仅是网站简介;GOOGLE智能化的“手气不错”功能,提供可能最符合要求的网站;OOGLE的“网页快照”功能,能从GOOGLE服务器里直接取出缓存的网页。
三,基本搜索:+,-,OR
GOOGLE无需用明文的“+”来表示逻辑“与”操作,只要空格就可以了。
示例:搜索所有包含关键词“易筋经”和“吸星**”的中文网页搜索:“易筋经+吸星**”结果:已搜索有关易筋经吸星**的中文(简体)网页。共约有726项查询结果,这是第1-10项。搜索用时0.13秒。
GOOGLE用减号“-”表示逻辑“非”操作。
示例:搜索所有包含“易筋经”而不含“吸星++”的中文网页搜索:“易筋经-吸星**”结果:已搜索有关易筋经-吸星**的中文(简体)网页。共约有5,440项查询结果,这是第1-10项。搜索用时0.13秒。
注意:这里的“+”和“-”号,是英文字符,而不是中文字符的“+”和“-”。此外,操作符与作用的关键字之间,不能有空格。比如“易筋经-吸星+++”,搜索引擎将视为逻辑“与”操作,中间的“-”被忽略。
GOOGLE用大写的“OR”表示逻辑“或”操作。但是,关键字为中文的或查询似乎还有BUG,无法得到正确的查询结果。
示例:搜索包含布兰妮“Britney”或者披头士“Beatles”、或者两者均有的中文网页。
搜索:“britneyORbeatles”结果:已搜索有关britneyORbeatles的中文(简体)网页。共约有14,600项查询结果,这是第1-10项。搜索用时0.08秒。搜索:“布兰妮OR披头士”结果:找不到和您的查询-布兰妮OR披头士-相符的网页。
注意:小写的“or”,在查询的时候将被忽略;这样上述的操作实际上变成了一次“与”查询。
“+”和“-”的作用有的时候是相同的,都是为了缩小搜索结果的范围,提高查询结果命中率。
例:查阅天龙八部具体是哪八部。
1,如果你知道八部中的某一部,比如阿修罗,增加“阿修罗”关键字,搜索结果就只有995项,可以直接找到全部八部,“天龙八部阿修罗”。
四,辅助搜索:通配符、大小写、句子、忽略字符以及强制搜索
GOOGLE不支持通配符,如“*”、“”等,只能做精确查询,关键字后面的“*”或者“”会被忽略掉。
GOOGLE对英文字符大小写不敏感,“GOD”和“god”搜索的结果是一样的。
GOOGLE的关键字可以是词组(中间没有空格),也可以是句子(中间有空格),但是,用句子做关键字,必须加英文引号。
示例:搜索包含“long,longago”字串的页面。搜索:“"long,longago"”结果:已向英特网搜索"long,longago".共约有28,300项查询结果,这是第1-10项。搜索用时0.28秒。
注意:和搜索英文关键字串不同的是,GOOGLE对中文字串的处理并不十分完善。比如,搜索“"啊,我的太阳"”,我们希望结果中含有这个句子,事实并非如此。查询的很多结果,“啊”、“我的”、“太阳”等词语是完全分开的,但又不是“啊我的太阳”这样的与查询。显然,GOOGLE对中文的支持尚有欠缺之处。
GOOGLE对一些网路上出现频率极高的词(主要是英文单词),如“i”、“com”,以及一些符号如“*”、“.”等,作忽略处理,如果用户必须要求关键字中包含这些常用词,就要用强制语法“+”。
示例:搜索包含“WhoamI”的网页。如果用“"whoami"”,“Who”、“I”、“”会被省略掉,搜索将只用“am”作关键字,所以应该用强制搜索。搜索:“"+who+am+i"”结果:已向英特网搜索"+who+am+i".共约有362,000项查询结果,这是第1-10项。搜索用时0.30秒。
注意:英文符号(如问号,句号,逗号等)无法成为搜索关键字,加强制也不行。
超文本传输协议(HTTP)的统一资源定位符将从因特网获取信息的五个基本元素包括在一个简单的地址中:
典型的统一资源定位符看上去是这样的:
其中:
由于超文本传输协议允许服务器将浏览器重定向到另一个网页地址,因此许多服务器允许用户省略网页地址中的部分,比如www。从技术上来说这样省略后的网页地址实际上是一个不同的网页地址,浏览器本身无法决定这个新地址是否通,服务器必须完成重定向的任务。
以下是一个数据库的统一资源定位符:
“site”表示搜索结果局限于某个具体网站或者网站频道,如“sina.com.cn”、“edu.sina.com.cn”,或者是某个域名,如“com.cn”、“com”等等。如果是要排除某网站或者域名范围内的页面,只需用“-网站/域名”。
示例:搜索中文教育科研网站(edu.cn)上所有包含“金庸”的页面。搜索:“金庸site:edu.cn”结果:已搜索有关金庸site:edu.cn的中文(简体)网页。共约有2,680项查询结果,这是第1-10项。搜索用时0.31秒。
示例:搜索包含“金庸”和“古龙”的中文新浪网站页面,搜索:“金庸古龙site:sina.com.cn”结果:已在sina.com.cn搜索有关金庸古龙的中文(简体)网页。共约有869项查询结果,这是第1-10项。搜索用时0.34秒。
“link”语法返回所有链接到某个URL地址的网页。
示例:搜索所有含指向华军软件园“www.newhua.com”链接的网页。搜索:“link:www.newhua.com”结果:搜索有链接到www.newhua.com的网页。共约有695项查询结果,这是第1-10项。搜索用时0.23秒。
注意:“link”不能与其他语法相混合操作,所以“link:”后面即使有空格,也将被GOOGLE忽略。
示例:查找MIDI曲“沧海一声笑”。搜索:“inurl:midi沧海一声笑”结果:已搜索有关inurl:midi沧海一声笑的中文(简体)网页。共约有14项查询结果,这是第1-10项。搜索用时0.01秒。
示例:查找微软网站上关于windows2000的安全课题资料。搜索:“inurl:securitywindows2000site:microsoft.com”结果:已在microsoft.com内搜索有关inurl:securitywindows2000的网页。共约有198项查询结果,这是第1-10项。搜索用时0.37秒。
注意:“inurl:”后面不能有空格,GOOGLE也不对URL符号如“/”进行搜索。GOOGLE对“cgi-bin/phf”中的“/”当成空格处理。
allinurl语法返回的网页的链接中包含所有查询关键字。这个查询的对象只集中于网页的链接字符串。
示例:查找可能具有PHF安全漏洞的公司网站。通常这些网站的CGI-BIN目录中含有PHF脚本程序(这个脚本是不安全的),表现在链接中就是“域名/cgi-bin/phf”。语法:“allinurl:"cgi-bin"phf+com”搜索:已向英特网搜索allinurl:"cgi-bin"phf+com.共约有40项查询结果,这是第1-10项。搜索用时0.06秒。
示例:查找日本明星藤原纪香的照片集。搜索:“intitle:藤原纪香写真”结果:已搜索有关intitle:藤原纪香写真的中文(简体)网页。共约有284项查询结果,这是第1-10项。搜索用时0.03秒。
GOOGLE的罕用高级搜索语法:related,cache,info
related用来搜索结构内容方面相似的网页。例:搜索所有与中文新浪网主页相似的页面(如网易首页,搜狐首页,中华网首页等),“related:www.sina.com.cn/index.shtml”。
cache用来搜索GOOGLE服务器上某页面的缓存,这个功能同“网页快照”,通常用于查找某些已经被删除的死链接网页,相当于使用普通搜索结果页面中的“网页快照”功能。
六,其他重要功能
PDF文档搜索
我对GOOGLE尤其欣赏的一点就是它提供对PDF文档内文的检索。目前GOOGLE检索的PDF文档大约有2500万左右。这真是太美妙了。PDF是ADOBE公司开发的电子文档格式,现在已经成为互联网的电子化出版标准。PDF文档通常是一些图文并茂的综合性文档,提供的资讯一般比较集中全面。
示例:搜索关于电子商务(ECOMMERCE)的PDF文档。搜索:“inurl:pdfecommerce”结果:已向英特网搜索inurl:pdfecommerce.共约有19,200项查询结果,这是第1-10项。搜索用时0.11秒。
下面是某项搜索结果:
可以看到,GOOGLE在PDF档前加上了[PDF]的标记,而且,GOOGLE把PDF文件转换成了文字档,点击“一般文字档”,可以粗略的查看该PDF文档的大致内容。当然,PDF原有的图片以及格式是没有了。
七,搜索技巧杂谈
关键词的选择在搜索中起到决定性的作用,所有搜索技巧中,关键词选择是最基本也是最有效的。
例一:查找《镜花缘》一书中淑士国酒保的酸话原文。
分析:如果按照一般的思路,找某部小说中的具体段落,就需要用搜索引擎先找到这本书,然后再翻到该段落。这样做当然可以,但是效率很低。如果了解目标信息的构成,用一些目标信息所特有的字词,可以非常迅速的查到所需要的资料。也就是说,高效率的搜索关键字不一定就是目标信息的主题。在上面的例子中,酒保谈到酒的浓淡与贵贱的关系时,之乎者也横飞。因此,可以用特定的词语一下子找到目标资料。
搜索:“酒贵贱之”,OK,找到的第一条信息就是镜花缘的这一段落:“先生听者:今以酒醋论之,酒价贱之,醋价贵之。因何贱之?为甚贵之?真所分之,在其味之。酒昧淡之,故而贱之;醋味厚之,所以贵之。...”
以上的关键字选择技巧可以谓之“特定词法”。
例二:“黄花闺女”一词中“黄花”是什么意思。
分析:“黄花闺女”是一个约定的俗语,如果只用“黄花闺女黄花”做关键词,搜索结果将浩如烟海,没什么价值,因此必须要加更多的关键词,约束搜索结果。选择什么关键词好呢?备选的有“意思”、“含义”、“来历”、“由来”、“典故”、“出典”、“渊源”等,可以猜到的是,类似的资料,应该包含在一些民俗介绍性的文字里,所以用诸如“来历”、“由来”、“出典”等词汇的概率更高一些。
以上的关键字选择技巧可以谓之“近义词法”。
例三:刘德华同志的胸围是多少。
搜索:“刘德华胸围身高”,没有料到的情况发生了,网上炙手可热的痞子蔡《第一次亲密接触》里居然含有这样关键字,阿泰“改编自刘德华《忘情水》的变态歪歌”、“用身高体重三围和生日来加以编号”。好办,把这部小说去掉,“刘德华胸围身高-阿泰”,OK,结果出来了,华仔胸围84cm。说明一下,为什么用“阿泰”而不用“第一次亲密接触”呢?这是因为小说的名字被转载的时候可能有变动,但里面角色的名字是不会变的。
八.其他常用搜索个案
例一:找人
例二:找软件
分析二:很多网站设有专门的下载目录,而且就命名为“download”,因此,可以用INURL语法直接搜索这些下载目录。搜索:“winzip8.0inurl:download”结果:已搜索有关winzip8.0inurl:download的中文(简体)网页。共约有358项查询结果,这是第1-10项。搜索用时0.44秒。
在互联网上随意的下载软件是不安全的,因为供下载的软件有可能带有病毒或者捆绑了木马,所以,对下载网站作一个限定,是一个稳妥的思路。可以用SITE语法达到这个目的。
共享软件下载完之后,使用的时候,软件总跳出警示框,或者软件的功能受到一定限制。由于中国的网民多是穷棒子,所以应该再找一个注册码。找注册码,除了软件的名称和版本号外,还需要有诸如“serialnumber”、“sn”、“序列号”等关键字。现在,来搜索一下winzip8.0的注册码。搜索:“winzip8.0sn”结果:已向英特网搜索winzip8.0sn.共约有777项查询结果,这是第1-10项。搜索用时0.30秒。
例三:找图片
除了GOOGLE提供的专门图片搜索功能,还可以组合使用一些搜索语法,达到图片搜索之目的。
分析一:专门的图片集合,提供图片的网站通常会把图片放在某个专门目录下,如“gallary”、“album”、“photo”、“image”等。这样就可以使用INURL语法迅速找到这类目录。现在,试着找找小甜甜布兰妮的照片集。搜索:“"britneyspears"inurl:photo”结果:已向英特网搜索"britneyspears"inurl:photo.共约有2,720项查询结果,这是第1-10项。搜索用时0.23秒。
分析二:提供图片集合的网页,在标题栏内通常会注明,这是谁谁的图片集合。于是就可以用INTITLE语法找到这类网页。搜索:“intitle:"britneyspears"picture”结果:已向英特网搜索intitle:"britneyspears"picture.共约有317项查询结果,这是第1-10项。搜索用时0.40秒。
分析三:明星的FANS通常会申请免费个人主页来存放他们偶像的靓照。于是用SITE语法指定某免费主页提供站点,是个迅速找到图片的好办法。搜索:“"britneyspears"site:geocities.com”结果:已在geocities.com内搜索有关"britneyspears"的网页。共约有5,020项查询结果,这是第1-10项。搜索用时0.47秒。
例四:找MP3
分析一:提供MP3的网站,通常会建立一个叫做MP3的目录,目录底下分门别类的存放各种MP3乐曲。所以,可以用INURL语法迅速找到这类目录。现在用这个办法找找老歌“sayyousayme”。搜索:“"sayyousayme"inurl:mp3”结果:已向英特网搜索inurl:mp3"sayyousayme".共约有155项查询结果,这是第1-10项。搜索用时0.17秒。
分析二:也可以通过网页标题,找到这类提供MP3的网页。搜索:“"sayyousayme"intitle:mp3”结果:已向英特网搜索"sayyousayme"intitle:mp3.共约有178项查询结果,这是第1-10项。搜索用时0.73秒。
当然,如果你知道某个网站的下载速度快,而且乐曲全,就可以用SITE语法先到该网站上看看有没有目标乐曲。
例五:找书
分析一:对我而言,常访问的电子图书馆类网站就那么几个,比如文艺类的“www.shuku.net”。于是可以用SITE语法很简单的找到某本书(如果该网站上有的话)。比如,“旧唐书site:shuku.net”,就可以马上找到该书。如果没有,通常别的网站上也很难找到。因此,找书的关键,是你了解一大批著名的图书馆网站。
九,GOOGLE搜索FAQ
Q:如何设定每页搜索结果显示数量?
Q:搜索到的链接无法打开怎么办?A:链接无法打开的原因很多,比如网站当机,或者ISP过滤等,可以点击GOOGLE的“网页快照”查看在GOOGLE服务器上的网页缓存。
Q:打开搜索结果的链接,可是该页面太大,很难找到一下子找到目的资料怎么办?A:直接打开“网页快照”,GOOGLE会把关键词用不同颜色标记出来,很容易找到。