过去一年,搜索引擎,或者扩大至互联网行业,最热门的话题无疑是人工智能。过去10几年,SEO技术和方法其实没什么大变化,这些年来我第一次觉得,不久的将来,SEO将被人工智能彻底改变。
上篇关于用户访问数据是否影响排名的帖子里提到,到目前为止,搜索引擎工程师多次否认排名算法中使用了他们自己的网站流量统计数据。可能的原因包括:
- 噪声太大,太容易作弊。看看以前做点击器,现在做百度快排的有多少,就知道作弊的市场有多大了。不仅给自己刷,还有给竞争对手刷的,把跳出率刷高。
- 不同场景,用户行为方式不同。跳出率高,不一定代表页面质量不高。
- 有的网站没有用搜索引擎的统计服务,怎么给这些网站排名?
但我们又真实地观察到用户访问数据确实影响了页面排名,这是不是有矛盾呢?人工智能也许就是答案。
去年写了AlphaGo、深度学习与SEO后,在网上看到有人说我在胡扯,别看到个新名词就往SEO扯。不知道一年后,是不是还有人觉得人工智能将影响、改变SEO的想法是胡扯。
人工智能近期发展
先看看过去几年人工智能领域值得注意、又和搜索有关的几件事:
- 2011年,吴恩达创建了Google Brain,一个超大规模的人工神经网络。可能是最早的Google人工智能项目。
- 2014年5月,吴恩达加入百度,任首席科学家,主要负责的肯定也是AI。2017年3月20号,吴恩达辞职。这个和人工智能本身应该无关,和新老板有关,看下面。
- 2015年,Google上线深度学习为基础的算法RankBrain,并且声称RankBrain是第三大排名因素。(前两大排名因素是内容和链接)RankBrain主要用于找到与用户查询词不完全匹配(因而传统排名算法不太有效)、但其实很好回答了用户查询的那些页面。记住这句有点拗口的话,因为百度有与此类似的算法,而且比Google更早使用,下次再写。
- 2015年10月,AlphaGo以5:0战胜欧洲围棋冠军樊麾。这条消息2016年1月才出来。
- 2016年3月,AlphaGo以4:1胜李世石。李世石赢的那一盘可能是人类战胜AI的最后一局棋。
- 2016年12月29号到2017年初的短短几天内,以Master为用户名的AlphaGo在弈城、野狐网络平台上,快棋60:0狂胜中日韩几乎所有人类最高手,包括柯洁、聂卫平、古力、常昊、朴廷桓、井山裕太…..平了一局,是因为网络断线。
- 2017年1月,原微软全球副总裁陆奇加入百度,任总裁。李彦宏在欢迎词里特意提到“同时,陆奇还是人工智能领域世界级的技术权威。……百度已经决定将人工智能列为公司未来十年最重要的战略方向……陆奇的加盟将极大地确保这一战略得以顺利实现”。
- 2016年9月以来,Google陆续上线各语种的采用深度学习方法的谷歌翻译。本来我也没太注意这个新闻,偶然用了一下Google翻译,水准之高,大大出乎我的想象。
人工智能领域领头的公司,刚好都是搜索引擎,是碰巧?Google研发AlphaGo只是为了下棋?只是为了无人汽车?百度人工智能团队现在发展到了1300人,挖吴恩达,挖陆奇,是为了组团参加最强大脑?
人工智能用于搜索
即使没有RankBrain这种确定使用人工智能的算法,我们也能猜到,搜索引擎花这么大精力研究人工智能,肯定不止是在外围或新业务上使用,他们没理由不把人工智能用在自己的核心业务,也就是搜索上。
仔细思考一下就知道,AlphaGo下围棋与搜索排名要解决的问题看似谁也不挨谁,但其本质是非常相像的,是可以用同一种方式解决的:
- AlphaGo通过学习无数盘棋,其中有人类的历史棋局,更多的是AlphaGo自我对局,累积海量数据,面对某一盘面时做出判断:下一手,子下在哪里胜率比较高?
- 搜索引擎排名算法通过学习质量评估员给出的数据、搜索用户点击访问数据等,面对某一个页面时做出判断:这个页面是高质量还是低质量的?这个页面作弊了吗?这个页面与查询词相关还是不相关?
传统搜索算法要回答上面问题时,需要工程师根据常识、工程知识、情怀、用户反馈等情况,选出排名因素,调整排名因素的权重,按既定的公式计算出答案。人工智能为基础的算法不需要工程师告诉它使用什么排名因素,而是自己去学习,自己琢磨用哪些排名因素,各占多少权重。人工智能考虑的因素很可能是会令人类觉得莫名其妙的。
人工智能的最大缺点,对人来说的缺点,它对人来说是个黑盒子,工程师也不知道它是怎么算的,根据什么算的。结果正确时,一切都挺好,但结果不大对头时,工程师也不知道为什么错了,还不好debug。也许由于这个原因,搜索引擎算法的核心现在还没被人工智能取代,搜索引擎需要很谨慎,不然会错得自己都不知道为什么错。
人工智能怎样影响SEO?
回到最前面的问题,用户点击、访问等行为是否是排名因素?是的话,怎样解决噪声、作弊问题?没有用搜索引擎统计服务的网站,无法确切知道访问深度、停留时间等,这又怎么办?
可以设想一下,算法可能不把用户访问数据作为直接排名因素,但可以作为某种验证方式,比如在传统排名算法计算出相关页面后,人工智能算法挑出与已知作弊页面有相同访问特征和其它特征的页面,降低其排名或者干脆不返回。这里要记得人工智能潜在的惊人的准确率。记得去年中Google就说过,AlphaGo当时大致相当于人类13段棋手,年底的棋局似乎验证了这很可能不是吹牛。柯洁和聂卫平等人与Master对局后都表达过大致这么个意思:看了AlphaGo/Master的棋,觉得人类一些对围棋的认识很可能是错的。
这种判断的惊人准确性,也许以后对黑帽SEO是个无法挽回的打击。如果搜索引擎算法判断一个页面是否作弊时,具有13段棋手、远远超出人类的水平和准确率,那么我们凡人该怎么作弊?
与此类似,如果网站没有使用搜索引擎的流量统计服务,人工智能可能会判断,这个网站A具有特征x, y, z…,另一堆使用了自己统计服务的网站同样具有特征x, y, z…..,预估网站A的访问深度、停留时间等和那些已知网站相同。这里,特征x, y, z……是什么,是人工智能自己学习出来的,很可能有人类意想不到、觉得毫无关系的东西。而基于人工智能的骇人能力,结论很可能是正确的。
人工智能对SEO的关键词研究、页面文案写作、网站结构等方面都会产生颠覆式的影响。这篇只是开了个头,以后再继续讨论。
源:每天一贴