ML基础——搜索引擎与图书管理,百度与李彦宏Coder梁

爬虫也有些地方称为蜘蛛,本质上是一个自动访问互联网的程序。我们都知道互联网当中的网页千千万万,想要靠人工去一个一个搜集是不现实的。所以爬虫就是代替人工去浏览互联网的程序,每当发现一个新的网站,就会把网站的内容抓取下来,存储起来。

这里有一个问题,爬虫怎么知道互联网当中网站的地址呢?

主要靠的是网站之间的联系,比如A网站当中的内容有指向B网站的链接,那么在爬取完A网站之后,爬虫会顺着当中的内容,去爬取B网站。如果B网站又有指向很多其他网站,那么爬虫会顺着依次访问。存储在内容当中的链接就像是蛛丝一样,将各个网页链接起来,爬虫就像是蜘蛛,在里面移动。

也就是说在爬虫程序的眼里,所有的网页都只是文本,连图片或者是视频在HTML里也只是以标签或者是链接的形式存在。我们也都看得出来,这一段文本杂乱无章,人眼很难看得出来当中都有什么信息。这样的文本当然是不能直接使用的,还需要进行文本处理。

文本处理的第一个步骤比较简单,Python当中有非常成熟的HTML分析的工具,第二个步骤则要复杂得多。当我们拿到了网页的文本之后,我们下一步要做的是提取网页的关键词,并处理成索引进行存储。

有了文本分词的结果之后,只会保留当中的一些关键词进行存储。存储的时候,除了会存储网页-关键词这个正向信息之外,其实还会存储关键词-网页的反向信息。在存储中心,网页是按照关键词聚集的。每个关键词会对应一个网站的列表,所有含有这个关键词的网站都会被存在这个列表当中。这样当用户搜索关键词的时候,就可以根据关键词直接找到对应的网站了。

如图,在搜索引擎当中,北京和大学是两个关键词,分别对应一系列包含这个关键词的网站。假设从前系统当中没有北京大学的官网,最近刚刚被爬虫抓到。由于北大的官网中有北京和大学两个关键词,所以在进行存储的时候,系统会将北京大学这个网址添加进北京和大学两个关键词对应的列表当中。这样,无论我们搜索北京还是大学,都可以召回北京大学这个网站。

当然无论我们搜索北京还是大学,召回的内容都非常多,并不一定能够返回北京大学。当我们搜索北京大学的时候,搜索引擎会同时召回北京和大学这两个关键词的网站,之后会做交集。选出既含有北京又含有大学的网站,进行返回,这样就一定可以返回北京大学的官网了。

在我们了解了存储中心的原理之后,整个流程其实已经很清楚了。简单来说只做了两件事情,一件是召回,另一件是排序。

召回顾名思义,就是通过用户输入的关键词去存储中心找出这些关键词对应搜索结果。再对这些结果做交集,找出匹配度最高的内容。

虽然每次我们百度的时候,它都会告诉我们搜索到了数以百万计甚至更多的结果,但是实际上真正通过粗排召回来的,可能只有一两千条。既然有粗排,那么自然也有精排。其实也很好理解,经过了粗排,数据从数千万减少到了一两千。接下来要做的就是对这一两千条数据进行进一步排序。排序的主要依据往往不止一个,首要的当然是匹配度,如果返回的网站和用户的诉求不匹配,显然会损伤用户体验,甚至导致用户流失。所以无论什么搜索引擎,质量永远是第一位。之后的依据各个引擎均有所不同,有些网站可能更加看重收益,所以会把收钱多的网站摆在前面,有些网站则更看重权威,会把热度比较高的,或者是比较官方的网站置顶。经过一系列的调整和过滤之后,结果才会真正返回给用户。

到这里,整个搜索引擎的架构就介绍完了。就单从架构来看,这个系统并不算复杂。在电商网站当中,比这个复杂的系统比比皆是。但是由于搜索引擎是互联网的入口,承载的流量巨大,并且对于性能的要求极高,使得整个系统当中存在大量的优化,实际上的系统要复杂和困难得多。

我们抛开难度不谈,仔细分析这个架构,其实会发现一点有趣的地方。比如,我有时候在想,为什么中文的搜索引擎最早做得最好的是百度呢?

后来我了解到李彦宏最早是北大图书馆学出身,再一看这个搜索引擎的架构和索引的结构,不就和图书管理一模一样吗?

在搜索引擎出现之前,图书馆中的书籍也是根据类别、关键字以及作者进行归类存放的。这样在检索的时候,才可以快速地找到相应的书籍。这个思想计算机出现之前就已经非常成熟了,如果我们更换一下概念,把互联网当中的网页当做是书籍,把网页的title当做是书籍的标题,正文当中的关键字当做是书籍的关键字,那么搜索网页和搜索书籍的技术在思想上其实是相通的。那么当年图书馆学出身的李彦宏在学了计算机之后,想到在互联网世界当中应用图书检索的技术,也就水到渠成了。

看来一个人能有多大的成就,除了个人奋斗之外,果然也要看历史的进程。

THE END
1.百度阅读电子书看书阅读神器IOS版下载图书App百度阅读-电子书看书阅读神器IOS版下载By Beijing Baidu Netcom Science & Technology Co.,Ltd出品分类: 图书 最后更新: 2024-12-13 发布日期: 2013-10-21 当前版本: 9.0.2 成人评级: 17+ 文件大小: 119.57 MB 开发人员: Beijing Baidu Netcom Science & Technology Co.,Ltd 系统平台: Mac / iPad / http://www.166n.com/app/714802729/
2.图书排行书汇中国作家网 >> 书汇 >> 图书排行 12月文学报好书榜:在记忆博物馆里漫游,一切似乎没有尽头 2024-12-17 十一月光明书榜 2024-12-11 11月文学报童书好书榜 2024-11-25 中国作家网文学好书 | 2024年第五期:在白露时分,暂别深山 2024-11-08 11月文学报好书榜 2024-11-05 10月文学报童书好书榜 2024-10http://www.chinawriter.com.cn/404058/404069/index.html
3.百度阅读yuedu.baidu.com百度阅读提供丰富的电子图书、畅销书排行榜,种类包括小说、文学、传记、艺术、少儿、经济、管理、生活等电子书的网上销售,为您提供佳的阅读体验。https://top.chinaz.com/site_yuedu.baidu.com.html
4.百度阅读怎么搜索图书百度阅读搜索图书方法介绍现在很多人都已经习惯了快节奏的生活,就连读书也是在网上进行了,很多人第一次在百度阅读中看书的时候,不知道怎么去搜索自己想要的书籍,下面小编就给大家分享几种搜索的方法吧!具体的搜索方法如下所示。 搜索方法介绍: 1.点击百度阅读,进入阅读。 2.进入书城,点击搜索按钮。、 3.有四种搜索方式,热词,图书,作者和https://www.liqucn.com/article/993602.shtml
5.你还只会用百度搜索信息?用一本漫画书,轻松教你找信息1、你平时如何搜查信息?是习惯用百度吗?还是其他? 2、你在搜集信息的时候,是否会遇到信息过载的问题,无法从中找到有用的信息? 3、你对自己的搜索和使用信息的能力,有足够的自信吗?打算如何改善? 4、你曾经试过用学校的网络查找数据库吗?擅长使用资源吗? https://wap.douban.com/book/review/10197131/
6.谷歌百度读秀三大中文图书搜索引擎比较及启示随着计算机和网络的普及,尤其是图书搜索引擎的推出,读者的阅读方式发生了变革。本文对谷歌、百度、读秀三大中文图书搜索引擎从首页、高级检索、检索结果显示信息以及提供图书详细信息和获得方式方面进行了分析比较,并探讨了它们的优缺点带给图书馆的启示。 更多 https://www.aminer.cn/pub/53e9b961b7602d970454f4be/the-comparison-and-enlightenment-of-chinese-book-search-engines-among-google-baidu
7.图书馆网站建设的意义/百度搜索关键词图书馆网站建设的意义/百度搜索关键词 图书馆网站建设的意义,百度搜索关键词,个人博客主页登录,wordpress菜单栏添加http://blog.sina.com.cn/ananyuxin http://blog.sina.com.cn/ananyuxinhttp://www.mhkc.cn/news/367561.html
8.在百度阅读里怎么搜索免费书籍百度阅读免费搜索书籍的方法在这里,你将找到简单易懂的分步指南,帮助你轻松获取海量免费书籍,充实你的阅读时光。 1、首先我们打开百度阅读app,进入百度阅读主页面,点击右上方的【搜索】图标 2、点击下方搜索热词中的“免费书”文字 3、也可以直接搜索关键词”免费“进行搜索 4、(1)点击一本免费图书,进入图书信息页(2)点击“加入书架”即可https://www.php.cn/faq/832314.html
9.搜索百度李彦宏:搜索百度幕后(汪瑞林著书籍)基本介绍 媒体推荐 图书目录 文摘1 基本介绍 内容简介 《搜索百度李彦宏:搜索百度幕后》2005年李彦宏被胡润富豪榜列为第17名,2005年12月2日,百度每股份格为80美元,百度链接下载MP3争议始末,李彦宏,2005年中国最聚人气的10位企业家之一!百度在纳斯达克上演了完美风暴之后,一天之内股价上涨五倍多,我们不得不用一个词https://baike.sogou.com/v63184109.htm
10.现代网络技术发达的情况下,图书馆的文献资源都可以通过百度等搜索大学职业搜题刷题APP 下载APP首页 课程 题库模板 题库创建教程 创建题库 登录 创建自己的小题库 搜索 【判断题】现代网络技术发达的情况下,图书馆的文献资源都可以通过百度等搜索引擎找到,图书馆可有可无。该说法是否正确? A. 正确 B. 错误 题目标签:图书馆搜索引擎引擎如何将EXCEL生成题库手机https://www.shuashuati.com/ti/29f8f0ec3cc74ad2b576e490a0252268.html?fm=bdbds467320b73f9da8c0848891e02f021000
11.现代网络技术发达的情况下,图书馆的文献资源都可以通过百度等搜索现代网络技术发达的情况下,图书馆的文献资源都可以通过百度等搜索引擎找到,图书馆可有可无。() 现代网络技术发达的情况下,图书馆的文献资源都可以通过百度等搜索引擎找到,图书馆可有可无。() 答案 查看答案 更多“现代网络技术发达的情况下,图书馆的文献资源都可以通过百度等搜索引擎找到,图书馆可有可无。()”相关https://www.educity.cn/souti/723E4339.html
12.《百度,大数据当当网图书频道在线销售正版《百度,大数据-全球最大的搜索引擎,最大的中文网站》,作者:冯永华,出版社:广东经济出版社有限公司。最新《百度,大数据-全球最大的搜索引擎,最大的中文网站》简介、书评、试读、价格、图片等相关信息,尽在DangDang.com,网购《百度,大数http://product.dangdang.com/24022262.html
13.基于百度学术搜索平台的图书馆员学术空间构建馆员是高校图书馆事业发展过程中最重要的因素,馆员学术能力的提升能够拓展高校图书馆服务的广度和深度。文章全面分析了百度学术搜索平台,认为其可以从资源获取、资源序化、学术成果展示、互动交流和成长激励几个方面帮助馆员构建学术空间,提升学术能力。最后对馆员建立学术空间提出了建议。https://www.sinomed.ac.cn/article.do?ui=2017344756
14.现代网络技术发达的情况下,图书馆的文献资源都可以通过百度等搜索现代网络技术发达的情况下,图书馆的文献资源都可以通过百度等搜索引擎找到,图书馆可有可无。 A对 B错 正确答案 答案解析 略 真诚赞赏,手留余香 小额打赏 169人已赞赏https://www.examk.com/p/3629453221.html
15.首页中山大学图书馆CASHL搜索 全部题名作者主题出版机构 搜索 一站式搜索中国高校人文社会科学文献中心(CASHL)17家中心馆人文社科类外文文献 开放时间 借阅服务 资源荐购 查收查引 数据库 馆际互借 培训讲座 研讨室预约 知识产权 图书捐赠 新生指南 校外访问 通知公告 09-26 https://library.sysu.edu.cn/
16.百度阅读app中搜索免费书籍的方法百度阅读是一款移动阅读软件,拥有海量的书籍资源,其中有部分是需要购买下载的,很多人是不愿意花这个钱。那么我们要怎么添加免费图书呢?怎样才能看免费的图书呢?跟着小编操作起来吧! 百度阅读怎么添加免费图书? 1、首先我们打开百度阅读app,进入百度阅读主页面,点击右上方的【搜索】图标 https://tech.wmzhe.com/article/4396.html