人工智能领域最牛X的公司,国外是Google,国内是百度。都是搜索引擎。这恐怕也不是什么巧合,而是因为搜索引擎是最适合开发人工智能的公司,他们拥有最大量的数据,包括文字、图片、视频,还有地图、路况、用户使用数据等等。
但我想,人工智能大规模应用于搜索算法是早晚的事。据说以前百度大搜索部门和人工智能/深度学习部门之间是有些矛盾的,现在吴恩达离开了百度,陆奇对百度又进行了很多人事调整,搜索部门对人工智能的排斥也许就大大降低了。
其实人工智能已经在搜索算法中有所运用。举两个例子。
百度DNN模型
下图是DNN训练的示意图:
演讲中提到的例子:
(注:看到这里的读者不用去百度搜索“ghibli车头如何放置车牌”了,您看到的将是被这篇帖子污染的搜索结果,会看到本帖,以及被转载、抄袭的本帖。)
DNN上线之后的搜索结果是这样的:
可以看到,搜索结果中还是没有以“ghibli车头如何放置车牌“为标题的页面,但解决了用户的需要,算法理解了“前”、“前面”和“车头”是一个意思,“放哪里啊”、“怎么装”、“咋挂”和“任何放置“是一个意思,所以”ghibli车牌咋挂“这种页面回答了“ghibli车头如何放置车牌“这个查询,虽然他们包含的关键词是不一样的。
GoogleRankBrain
2015年上线的GoogleRankBrain解决的也是对查询词的深入理解问题,尤其是比较长尾的词,找到与用户查询词不完全匹配、但其实很好回答了用户查询的那些页面。和百度DNN是非常类似的。Google没有具体说明RankBrain的训练方法,估计和百度DNN也是类似的。
2015年RankBrain上线时,15%的查询词经过RankBrain处理,2016年所有查询词都要结果RankBrain处理。
Google自己经常举的RankBrain例子是这个查询:
What’sthetitleoftheconsumeratthehighestlevelofafoodchain
这个查询词相当长尾,完全匹配的结果比较少,而且查询中的几个词容易有歧义,比如consumer通常是消费者的意思,foodchain也可以理解为餐饮连锁,但这个完整的查询和商场、消费者、饭馆之类的意思没有任何关系,RankBrain能理解其实用户问的是食物链顶端的物种是什么名字。同样,搜索结果不能按照传统的关键词匹配来处理。
这种长尾查询数量很大,每天Google收到的查询里有15%是以前都没出现过的。这种查询要靠关键词匹配就比较难以找到高质量页面,数量太少,甚至没有,但理解了查询的语义和意图,就能找到满足用户需求的、关键词并不完全匹配的页面。
对SEO的影响以后再详细写,这里只是先简单提示一下:页面要包含关键词,这在目前的关键词优化过程中是必然的,现在搜索引擎能理解两句不同的话意思是一样的了,以后创作或编辑页面内容时,是不是还一定要包含关键词呢?