2017年3月31日星期五

人工智能将彻底改变SEO

过去一年,搜索引擎,或者扩大至互联网行业,最热门的话题无疑是人工智能。过去10几年,SEO技术和方法其实没什么大变化,这些年来我第一次觉得,不久的将来,SEO将被人工智能彻底改变。
上篇关于用户访问数据是否影响排名的帖子里提到,到目前为止,搜索引擎工程师多次否认排名算法中使用了他们自己的网站流量统计数据。可能的原因包括:
  • 噪声太大,太容易作弊。看看以前做点击器,现在做百度快排的有多少,就知道作弊的市场有多大了。不仅给自己刷,还有给竞争对手刷的,把跳出率刷高。
  • 不同场景,用户行为方式不同。跳出率高,不一定代表页面质量不高。
  • 有的网站没有用搜索引擎的统计服务,怎么给这些网站排名?
但我们又真实地观察到用户访问数据确实影响了页面排名,这是不是有矛盾呢?人工智能也许就是答案。
去年写了AlphaGo、深度学习与SEO后,在网上看到有人说我在胡扯,别看到个新名词就往SEO扯。不知道一年后,是不是还有人觉得人工智能将影响、改变SEO的想法是胡扯。

人工智能近期发展

先看看过去几年人工智能领域值得注意、又和搜索有关的几件事:
  • 2011年,吴恩达创建了Google Brain,一个超大规模的人工神经网络。可能是最早的Google人工智能项目。
  • 2014年5月,吴恩达加入百度,任首席科学家,主要负责的肯定也是AI。2017年3月20号,吴恩达辞职。这个和人工智能本身应该无关,和新老板有关,看下面。
  • 2015年,Google上线深度学习为基础的算法RankBrain,并且声称RankBrain是第三大排名因素。(前两大排名因素是内容和链接)RankBrain主要用于找到与用户查询词不完全匹配(因而传统排名算法不太有效)、但其实很好回答了用户查询的那些页面。记住这句有点拗口的话,因为百度有与此类似的算法,而且比Google更早使用,下次再写。
  • 2015年10月,AlphaGo以5:0战胜欧洲围棋冠军樊麾。这条消息2016年1月才出来。
  • 2016年3月,AlphaGo以4:1胜李世石。李世石赢的那一盘可能是人类战胜AI的最后一局棋。
  • 2016年12月29号到2017年初的短短几天内,以Master为用户名的AlphaGo在弈城、野狐网络平台上,快棋60:0狂胜中日韩几乎所有人类最高手,包括柯洁、聂卫平、古力、常昊、朴廷桓、井山裕太…..平了一局,是因为网络断线。
  • 2017年1月,原微软全球副总裁陆奇加入百度,任总裁。李彦宏在欢迎词里特意提到“同时,陆奇还是人工智能领域世界级的技术权威。……百度已经决定将人工智能列为公司未来十年最重要的战略方向……陆奇的加盟将极大地确保这一战略得以顺利实现”。
  • 2016年9月以来,Google陆续上线各语种的采用深度学习方法的谷歌翻译。本来我也没太注意这个新闻,偶然用了一下Google翻译,水准之高,大大出乎我的想象。
人工智能领域领头的公司,刚好都是搜索引擎,是碰巧?Google研发AlphaGo只是为了下棋?只是为了无人汽车?百度人工智能团队现在发展到了1300人,挖吴恩达,挖陆奇,是为了组团参加最强大脑?

人工智能用于搜索

即使没有RankBrain这种确定使用人工智能的算法,我们也能猜到,搜索引擎花这么大精力研究人工智能,肯定不止是在外围或新业务上使用,他们没理由不把人工智能用在自己的核心业务,也就是搜索上。
人工智能讲彻底改变SEO仔细思考一下就知道,AlphaGo下围棋与搜索排名要解决的问题看似谁也不挨谁,但其本质是非常相像的,是可以用同一种方式解决的:
  • AlphaGo通过学习无数盘棋,其中有人类的历史棋局,更多的是AlphaGo自我对局,累积海量数据,面对某一盘面时做出判断:下一手,子下在哪里胜率比较高?
  • 搜索引擎排名算法通过学习质量评估员给出的数据、搜索用户点击访问数据等,面对某一个页面时做出判断:这个页面是高质量还是低质量的?这个页面作弊了吗?这个页面与查询词相关还是不相关?
传统搜索算法要回答上面问题时,需要工程师根据常识、工程知识、情怀、用户反馈等情况,选出排名因素,调整排名因素的权重,按既定的公式计算出答案。人工智能为基础的算法不需要工程师告诉它使用什么排名因素,而是自己去学习,自己琢磨用哪些排名因素,各占多少权重。人工智能考虑的因素很可能是会令人类觉得莫名其妙的。
人工智能的最大缺点,对人来说的缺点,它对人来说是个黑盒子,工程师也不知道它是怎么算的,根据什么算的。结果正确时,一切都挺好,但结果不大对头时,工程师也不知道为什么错了,还不好debug。也许由于这个原因,搜索引擎算法的核心现在还没被人工智能取代,搜索引擎需要很谨慎,不然会错得自己都不知道为什么错。

人工智能怎样影响SEO?

回到最前面的问题,用户点击、访问等行为是否是排名因素?是的话,怎样解决噪声、作弊问题?没有用搜索引擎统计服务的网站,无法确切知道访问深度、停留时间等,这又怎么办?
可以设想一下,算法可能不把用户访问数据作为直接排名因素,但可以作为某种验证方式,比如在传统排名算法计算出相关页面后,人工智能算法挑出与已知作弊页面有相同访问特征和其它特征的页面,降低其排名或者干脆不返回。这里要记得人工智能潜在的惊人的准确率。记得去年中Google就说过,AlphaGo当时大致相当于人类13段棋手,年底的棋局似乎验证了这很可能不是吹牛。柯洁和聂卫平等人与Master对局后都表达过大致这么个意思:看了AlphaGo/Master的棋,觉得人类一些对围棋的认识很可能是错的。
这种判断的惊人准确性,也许以后对黑帽SEO是个无法挽回的打击。如果搜索引擎算法判断一个页面是否作弊时,具有13段棋手、远远超出人类的水平和准确率,那么我们凡人该怎么作弊?
与此类似,如果网站没有使用搜索引擎的流量统计服务,人工智能可能会判断,这个网站A具有特征x, y, z…,另一堆使用了自己统计服务的网站同样具有特征x, y, z…..,预估网站A的访问深度、停留时间等和那些已知网站相同。这里,特征x, y, z……是什么,是人工智能自己学习出来的,很可能有人类意想不到、觉得毫无关系的东西。而基于人工智能的骇人能力,结论很可能是正确的。
人工智能对SEO的关键词研究、页面文案写作、网站结构等方面都会产生颠覆式的影响。这篇只是开了个头,以后再继续讨论。

2017年3月28日星期二

23个统计数字揭示搜索用户行为

原文很长,要了解细节的请读原文。下面只是挑几句结论,加上一些自己的感想。
统计数据来源于Jumpshot的点击流数据,记录的是美国用户浏览器访问和点击情况,不是来自搜索引擎。

1)每个月在Google.com有多少次真正搜索?

就jumpshot设备能记录分析的数据,每人每天做了3.4次搜索。换算下来,相当于美国用户在Google.com每个月进行了400-600亿次搜索。

2)每次Google搜索进程平均多长时间?

从开始搜索,到搜索结果页面打开,到点击结果页面,到点击返回按钮回到结果页面,到重新点击另一个结果,平均不到1分钟时间。

3)多少用户一天里进行至少一次搜索?

只有15%的美国用户在一天里做过至少一次搜索。这个数字不高啊。好的一面是,还有很大增长空间。
45%的用户在一个星期里至少做了至少一次搜索,68%的用户在一个月里做了至少一次搜索。

4)多大比例的搜索导致了一次点击?

66%的搜索导致了一次或多次点击。34%的搜索啥也没点。
和百度一样,Google也愿意把用户留在自己网站上。不同的是,百度是把用户送到自己的内容页面去,如百度百科、知道,Google是在搜索结果页面上直接回答问题。

5)多少比例的点击是点击了搜索广告?

只有3.4%点击的是AdWords搜索广告。在百度上是否更高?Google搜索广告占的面积现在也是越来越大了。

6)多少比例的点击是去往地图/本地结果?

0.1%的点击是点击到地图/本地结果。
这里指的不是在maps.google.com上的地图搜索,而是在www.google.com搜索,结果点击去了地图或本地结果。

7)多少比例的点击去了知识图谱(knowledge graph)?

有大致38%的搜索会显示知识图谱,也就是搜索结果页面右侧经常出现的背景知识。但只有0.5%的点击去了知识图谱里的链接。知识图谱就是那些在搜索结果页面就能看到答案,所以用户不必再点击的那类结果之一。
百度也有类似结果,好像也叫百度知识图谱。

8)多少比例的点击去了图片区域?

11%的Google搜索结果会出现图片结果,3%的点击去了这部分图片。
这个应该不是百度特有的图文展现那种,而是展示一排图片的那种。图片还是很能吸引眼球的。

9)多少点击去了新闻结果?

没统计出来。原因是统计数据期间,Google新闻结果的格式有变化,从News Results改成了Top Stories。

10)多少点击去了twitter区块?

7%的搜索结果显示一个Twitter结果区块,有0.23%的点击去了twitter。

11)多少点击去了Youtube?

6.3%的搜索结果有Youtube内容,1.8%的点击去了Youtube。
Youtube比twitter的吸引力高多了。或者应该说是视频的吸引力。

12)多少点击去了gmail?

0.16的点击去了gmail里的邮件。
这个是Google特有的,只有在用户处于登录状态时才显示gmail邮件内容。其实挺方便的,比如搜索一下某个航班或酒店,搜索结果里会出现自己已经预定的航班、酒店邮件。

13)多少点击去了Google Shopping结果?

9%的搜索会出现Google Shopping内容,0.55%的点击去了Google Shopping。
Google Shopping出现时,在页面顶部占很大一块,而且图片显示很吸引眼球,看来点击结果也不错。

14)多少点击去了Google自己的内容?

包括地图、gmail、图书、Google+之类的,去了这些Google自己内容的点击是11.8%。
相比之下,百度搜索去了自己内容的点击肯定更多,搜索结果中出现的百度百科、知道、经验等等,有时候比例高得惊人。请参考百度霸屏这篇帖子。

15)美国主要搜索服务各自所占比例?

  1. Google.com 59.30%
  2. Google Images 26.79%
  3. YouTube.com 3.71%
  4. Yahoo! 2.47%
  5. Bing 2.25%
  6. Google Maps 2.09%
  7. Amazon.com 1.85%
  8. Facebook.com 0.69%
  9. DuckDuckGo 0.56%
  10. Google News 0.28%
Google图片搜索比例很大,远超过被认为是第二大搜索服务的youtube。
雅虎和必应的使用比例貌似惨不忍睹。当初雅虎放弃自己的搜索技术并没有给雅虎和微软带来市场份额。

16)关键词搜索需求分布情况?

前1百万查询词占所有搜索的25%,前1千万查询词占所有搜索的45%,前10亿占了90%。如下图:
关键词需求分布
所以,长尾还是挺长

17)PC和移动查询词平均包含几个单词?

典型用户使用的查询词平均包含3个单词。PC用户查询使用的单词数比移动用户稍长。但也只是稍长,并不是移动用户因为输入困难而使用短得多得查询词。

18)多少比例的查询是以问题的形式?

8%的查询是以问句的形式出现,比如“明天会下雨吗”这种。
问句式查询近年来占比越来越大,是个可以挖掘的新机会。常见的问句形式包括
  • xxx是什么?(如SEO是什么?)
  • xxx怎么做
  • xxx哪个/哪家最好
  • xxx是什么时候
  • 哪里有xxx
  • 为什么xxx
和新闻写作的5个W、1个H(Who, What, When, Where, Why, How)是很相近的。

19)移动和PC搜索中付费及自然结果的点击率区别?

在移动搜索中,40.9%的搜索产生自然排名点击,2%的搜索产生付费点击,57.1%的搜索什么点击也没有产生。
在PC搜索中,62.2%的搜索产生自然自然排名点击,2.8%的搜索产生付费结果点击,剩下的35%没点击。
所以,SEO流量远远超过PPC,但企业花在PPC的钱通常远远超过SEO。我见过每个月花几十万做PPC的公司说,他们愿意在SEO每个月花100块钱。

20)多大比例的查询,用户没有点击任何结果,就查询其他词?

用户查询某个词,没看到什么合适的答案,转而搜索其它词,或者点击搜索引擎列出的相关搜索,这种比例占多大?统计数据是18%的查询会这样。

21)多少查询导致不止一次点击?

用户在新窗口打开结果页面(百度就不用了,页面缺省就是在新窗口打开),或者点击返回按钮再点击另一个结果,有21%的搜索会产生这种不止一次点击的情况。

22)弹回并点击其它结果的有多少?

用户点击一个结果页面,跳出返回搜索结果页面,点击了另一个结果,也就是上面21条中的第二种情况,8%的搜索会发生这种情况。
这也就是跳出率可能影响页面排名的情况。

23)有多少点击是去了非Top 100网站?

除了Google自己的内容,有多少点击是去了top 100网站?也就是那些巨大的站。有多少点击去了非top 100网站?也就是普通点的网站。12.6%的点击去了搜索流量前100名的网站,剩下87.4%给了芸芸众生。
还好,长尾还在,如果一半流量给了top 100网站,普通做SEO的就没法活了。

源: 每天一贴

2017年3月23日星期四

用户访问数据对搜索词排名的影响?

用户访问数据是否影响页面的搜索排名?这是个老话题。早在11年前,我就在SEO每天一贴写过Google可能在排名算法中考虑用户行为方式
不过,到目前为止,所有就这个问题发过言的Google工程师都明确否认用户访问和行为数据是排名的直接因素。这里要注意他们的用词,通常他们否认的是 – 直接因素。而我们SEO观察到的情况是,用户访问和行为至少会间接影响页面排名。
在搜索过程中,主要的用户访问、交互行为包括点击率、跳出率、用户停留时间、访问深度等,广义点看,还包括了在社交媒体上的分享、评论等行为对SEO的影响

点击率是否影响页面排名?

首先,搜索结果中页面的点击率肯定是影响排名的,不然就没有前几年的百度点击器和现在的所谓百度快排了。Google也同样,虽然公开场合都否认是直接因素,但数年前就有Google工程师当面和我说过,点击率是会影响排名的。也许不是直接排名因素,但可以是校验因素。
去年底,Larry Kim的统计表明:
  • 排名靠前的页面点击率有越来越高的趋势,从2016年4月的22%上升到9月的24%
  • 超过所在位置平均点击率的页面容易获得1-4位的排名,比如超过平均点击率20%的页面容易被排到第一位
  • 比平均点击率低的页面一般排在6-10位
关于所在位置平均点击率是指,每个排名位置,有个大致稳定的点击率,比如第一位,通常点击率30-40%等等,如下图:
搜索结果页面点击率分布
当然,搜索引擎要找到办法剔除用户数据中的噪声、作弊,并考虑到不同场景下的特殊性,不然,点击器或快排之类的就会大行其道。就我所知,有不少人试过把百度点击器的同样方法用在Google排名上,但没有看到明显效果,Google的反作弊能力高一些。现在Google算法中很可能加强了点击率等用户数据的影响,不知道有没有人在继续实验Google点击器?

修改页面标题就能提高页面排名?

那么问题来了,如果页面有了一定的排名,比如爬到了第一页下半部分,是不是修改一下页面标题,更吸引眼球,更吸引人点击,就能进一步提高页面的排名?
答案是,经常是会有效的。不知道有几个读者注意到,近几个月,我在这个博客的一组页面上,大量、频繁更改、实验页面标题,并观察记录排名变化,我的结论是,用个更好的标题,点击率提高,确实能提高排名。
而且我发现,百度会从同一个网站上挑选几个相似页面,目标关键词几乎相同,轮换给予排名,看哪个效果更好。百度经过一段时间的数据积累,点击率高的,保持排名,点击率低的,页面可能会跑到很后面去。
再进一步,是不是我的页面是关于SEO的,在标题上写”免费、高清、无码苍老师作品+SEO“就能排名巨牛了?显然,也没这种好事。

跳出率和停留时间是否影响排名?

吸引到点击以后怎么办?用户是否真的愉快地看到了苍老师,搜索引擎也是会评估的。
Larry Kim的统计还表明:
  • 跳出率在76%以下的页面更可能排名在1-4位,跳出率78%以上的,更可能出现在5-10位。
  • 用户在网站的停留时间长的更可能排在1-6位,他的数据是长达8分钟多,这个有点长。停留时间短的就从第7往后排了。
当然,搜索引擎一定会注意到应用场景,上面的统计数字并不是绝对的。一个博客,忠实读者来了就是看最新文章,然后就走了,越忠实,可能跳出率越高。一个论坛就不能是这样。一个查询汇率页面,用户来了,瞟一眼就知道答案了,跳出率高、停留时间短,但不说明用户不满意。
这个我也做了实验。怎么提高停留时间呢?最简单的方法是,把页面弄长点呗。我把两个页面内容扩充了很多,用户从这两个页面进入时的停留时间加长了。页面在百度的排名跳动一段时间后,爬到比以前高得多的位置。但这个几乎是孤证,不能说是结论,只能当个参考。
(注:我这只是做个实验,举个例子。真正提高停留时间、访问深度的方法是改善用户体验,不是把页面弄长点这么简单。)
所以,建议SEO们查看一下百度站长平台、Google站长工具、流量统计,找出用户访问数据难看的页面,看看能不能优化一下,也许有意想不到的效果。

搜索引擎怎样获得用户访问数据?

有些数据搜索引擎从结果页面就能得到,比如点击率。
有些可能需要借助其它服务,比如百度和Google都有自己的流量统计服务,而且是最流行的流量统计服务。但是,搜索引擎,包括百度和Google,都声明,他们的排名算法中不会使用自己的网站统计服务或浏览器数据。前几天,Eric Enge的实验表明,Google不会利用Chrome用户访问数据发现新URL。
而且,很多网站完全不使用百度统计、Google Analytics这类的服务,那么,如果我们观察和统计的数据都表明,用户体验、交互等访问行为影响了搜索排名,搜索引擎从哪里获得这些用户访问数据?这可能就会牵扯到下一篇帖子的主题:人工智能将彻底改变SEO。