2017年4月26日星期三

怎样减少无效URL的爬行和索引 – 无完美解

少年老成的云晨守望同学(题外话:少年老成是好事哈。我20多岁时人家说我像40岁,我40多岁时好多人说我像30多,男人20到50岁可以做到基本一个样子)在网络营销实战密码网站贴了个帖子:透过京东商城看国内一线B2C网站SEO通病。建议先看那个帖子再回来看本帖,不然不容易明白下面在说什么。
简单说,帖子指出一个严重而且现实的SEO问题:很多网站,尤其是B2C,产品条件过滤系统(如选择产品的品牌、价格、尺寸、性能、参数等)会产生大量无效URL,之所以称为无效只是从SEO角度看的,这些URL并不能产生SEO作用,反倒有负面作用,所以这些URL不收录为好,原因包括:
  • 大量过滤条件页面内容重复或极为类似(大量复制内容将使网站整体质量下降)
  • 大量过滤条件页面没有对应产品,页面无内容(如选择“100元以下42寸LED电视”之类的)
  • 绝大部分过滤条件页面没有排名能力(排名能力比分类页面低得多)却浪费一定权重
  • 这些过滤条件页面也不是产品页面收录的必要通道(产品页面应该有其它内链帮助爬行和收录)
  • 爬行大量过滤条件页面极大浪费蜘蛛爬行时间,造成有用页面收录机会下降(过滤条件页面组合起来是巨量的)
那么怎样尽量使这些URL不被爬行和索引、收录呢?前几天的一篇帖子如何隐藏内容也可能成为SEO问题讨论的是类似问题,这种过滤页面就是想隐藏的内容种类之一。不过可惜,我目前想不出完美的解决方法。云晨守望提出两个方法,我觉得都无法完美解决。
一是将不想收录的URL保持为动态URL,甚至故意越动态越好,以阻止被爬行和收录。但是,搜索引擎现在都能爬行、收录动态URL,而且技术上越来越不是问题。虽然参数多到一定程度确实不利于收录,但4、5个参数通常还可以收录。我们无法确认需要多少参数才能阻止收录,所以不能当作一个可靠的方法。而且这些URL接收内链,又没有什么排名能力,还是会浪费一定权重。
第二个方法,robots禁止收录。同样,URL接收了内链也就接收了权重,robots文件禁止爬行这些URL,所以接收的权重不能传递出去(搜索引擎不爬行就不知道有什么导出链接),页面成为权重只进不出的黑洞。
连向这些URL的链接配合nofollow也不完美,和robots禁止类似,nofollow在Google的效果是这些URL没有接收权重,权重却也没有被分配到其它链接上,所以权重同样浪费了。百度据称支持nofollow,但权重怎么处理未知。
将这些URL链接放在Flash、JS里也没有用,搜索引擎已经可以爬行Flash、JS里的链接,而且估计以后越来越擅长爬。很多SEO忽略了的一点是,JS中的链接不仅能被爬,也能传递权重,和正常连接一样。
也可以将过滤条件链接做成AJAX形式,用户点击后不会访问一个新的URL,还是在原来URL上,URL后面加了#,不会被当成不同URL。和JS问题一样,搜索引擎正在积极尝试爬行、抓取AJAX里的内容,这个方法也不保险。
还一个方法是在页面head部分加noindex+follow标签,意即本页面不要索引,但跟踪页面上的链接。这样可以解决复制内容问题,也解决了权重黑洞问题(权重是可以随着导出链接传到其它页面的),不能解决的是浪费蜘蛛爬行时间问题,这些页面还是要被蜘蛛爬行抓取的(然后才能看到页面html里的noindex+follow标签),对某些网站来说,过滤页面数量巨大,爬行了这些页面,蜘蛛就没足够时间爬有用页面了。
再一个可以考虑的方法是隐藏页面(cloaking),也就是用程序检测访问者,是搜索引擎蜘蛛的话返回的页面拿掉这些过滤条件链接,是用户的话才返回正常的有过滤条件的页面。这是一个比较理想的解决方法,唯一的问题是,可能被当作作弊。搜索引擎常跟SEO讲的判断是否作弊的最高原则是:如果没有搜索引擎,你会不会这么做?或者说,某种方法是否只是为了搜索引擎而采用?显然,用cloaking隐藏不想被爬行的URL是为搜索引擎做的,不是为用户做的。虽然这种情况下的cloaking目的是美好的,没有恶意的,但风险是存在的,胆大的可试用。
还一个方法是使用canonical标签,最大问题是百度是否支持未知,而且canonical标签是对搜索引擎的建议,不是指令,也就是说这个标签搜索引擎可能不遵守,等于没用。另外,canonical标签的本意是指定规范化网址,过滤条件页面是否适用有些存疑,毕竟,这些页面上的内容经常是不同的。
目前比较好的方法之一是iframe+robots禁止。将过滤部分代码放进iframe,等于调用其它文件内容,对搜索引擎来说,这部分内容不属于当前页面,也即隐藏了内容。但不属于当前页面不等于不存在,搜索引擎是可以发现iframe中的内容和链接的,还是可能爬行这些URL,所以加robots禁止爬行。iframe中的内容还是会有一些权重流失,但因为iframe里的链接不是从当前页面分流权重,而只是从调用的那个文件分流,所以权重流失是比较少的。除了排版、浏览器兼容性之类的头疼问题,iframe方法的一个潜在问题是被认为作弊的风险。现在搜索引擎一般不认为iframe是作弊,很多广告就是放在iframe中,但隐藏一堆链接和隐藏广告有些微妙的区别。回到搜索引擎判断作弊的总原则上,很难说这不是专门为搜索引擎做的。记得Matt Cutts说过,Google以后可能改变处理iframe的方式,他们还是希望在同一个页面上看到普通用户能看到的所有内容。
总之,对这个现实、严重的问题,我目前没有自己觉得完美的答案。当然,不能完美解决不是就不能活了,不同网站谷歌SEO重点不同,具体问题具体分析,采用上述方法中的一种或几种应该可以解决主要问题。
而最最最大的问题还不是上述这些,而是有时候你让这些过滤页面被爬行和收录,这才是杯具的开始。以后再讨论。

2017年4月20日星期四

怎样做好网站文案写作

以前写过考虑外贸SEO因素的文案写作。今天再介绍几个抛开SEO因素,单纯就网站文案写作的想法。

标题要准确简洁

看网页和看书不同,大部分人是浏览,而不是真正的读。如果标题不能清楚的表达网页内容,很多读者可能就不再继续往下看下去了。
标题必须在几秒之内吸引住读者,告诉读者你要说什么,所以一般不要在标题上故弄玄虚。有时候为增加吸引力,可以适当地,善意地神秘一下或夸张一下。

多分段

由于看网站的浏览方式很特殊,最好不要写很长的段落,那样会使读者眼睛很累,产生厌倦感。两三句话就分成一段,连成一片的大段文字很容易让人头昏脑胀。

融入个人化风格

这一点可能很多大公司不同意。
但是对中小型公司和个人网站来说,我感觉不要写的太八股,口气不要官式,尽量融入个人的特点,使人感到网站的背后是一个或一群有血有肉的人,而不是一个摸不着头脑的机构。

少用空洞的词汇

网页不同于公司年度报告,也不是学术研究,不必用那些很空洞的大词,写大白话就行了。
最典型的常被莫名其妙使用的词就是”解决方案”这类,那么多网站都号称自己给其他企业提供”解决方案”,可”解决方案”这个词在不同行业,对不同公司不同人,都是不同的意思,看了这个词还是完全不知道你想说什么。

使用小标题

网页文案写作要非常简洁清楚,逻辑结构清晰,列出小标题有助于读者大致浏览之后就抓住内容重点。如果读者再想仔细看的话,自然会看标题下面的具体解释。

可以带一些煽动性情感

这一点更适合于直接在网站上销售产品和服务的网站,对以收集新闻和信息为主,然后靠广告赚钱的网站也许没太大的用。
如果想在网站上直接销售产品,你的每一句话都要指向一个特定的目标,就是让读者去做你想让他做的事情。比如把产品放入购物车。
顾客买东西很多时候都是冲动型的,靠理性不一定能让顾客拿出钱来。你要打动他的情感,向他描绘你的产品能给他带来的好处。讲一个故事,描述一个令人向往的场景,让用户不知不觉的进入你营造的那个情景,然后拿出信用卡。

2017年4月19日星期三

标题中关键词的密度、信噪比对SEO排名有多少影响?

SEO们都知道网站标题在Google中占据着重要地位。经常做外贸网站优化英文SEO们在做标题优化时,有时会发现,也许关键词位置分布已经是ok的了,但被Google收录参与排名后,排名却并不理想。到底在标题优化这个SEO环节中哪里出了问题呢?在反复的调试和研究其他做得好的网站的SEO后,会发现关键词在网站页面标题中的密度和信噪比对SEO排名起着举足轻重的作用。
      首先,关键词在一个标题中所占的比例过高,要么显得标题信息不够丰富,要么有过度优化的倾向;比例过低,体现不出关键词在标题中的重要性。其次,不相关词字在标题中所占的比例过高,‘噪音’过大,影响关键词排名。完全无‘噪音’又缺乏自然表现。

Canonical标签-解决复制内容问题措施之一

  • 什么是Canonical标签?作用是什么?
      Canonical标签是一种用来告诉google搜索引擎哪个链接页面的内容才是固定版本(原始版本),或者换种说法,是告诉搜索引擎有多少个页面应该被当作一个页面。作用是用来解决那些会产生复制内容的网页页面的复制内容问题。

  • 什么搜索引擎支持Canonical标签?
      2009年2月份,谷歌、雅虎和微软Bing必应向大众公布了Canonical标签;2013年1月份,百度表示,百度搜索引擎已支持Canonical标签。但搜索引擎表示,Canonical标签不是任何时候都会生效。除了看Canonical标签,搜索引擎同时也会结合自己的分析判断(内容分析和算法),最终决定显示哪一个版本作为搜索结果。

  • Canonical标签怎么用?Canonical标签的写法,写在哪个位置?
      Canonical标签的写法很简单:“左尖括号”link rel="canonical" href="原始版本页面的URL地址"“斜杠”“右尖括号”
必须要把这一段代码加入到head标签内(其他位置不行)。 

  • Canonical标签与301永久转向
      从SEO的角度讲,Canonical标签和301转向非常相像,都是告诉搜索引擎哪一个页面是唯一页面,并且都支持跨域名使用。主要的区别是:Canonical标签做的转向不会有流量(蜘蛛和人类访客)转向而301转向会,所以只做Canonical标签的页面可以让你分开跟踪每个不同URL版本的访客情况;Canonical标签发出的信号强度弱于301永久转向,即有时你用Canonical标签指明的唯一页面不能由你说了算,还要搜索引擎对每个版本进行内容分析并结合算法得出最终显示结果。

2017年4月14日星期五

Matt Cutts正式从Google辞职

全世界SEO人都热爱的Matt Cutts刚刚发了博客帖子,宣布已于2016年12月31号正式从Google辞职。在这之前,他已经休假长达2年半了。
Google搜索质量反垃圾组负责人Matt CuttsMatt Cutts是Google最资深的工程师之一,据说工号在100以内。他长期担任Google搜索部门反垃圾组的负责人,在某种意义上说,与SEO们是对手。
对SEO行业影响更大的是,他也是SEO们的朋友。很早以前,记不得是哪年了,Matt Cutts开始在webmasterworld.com以GoogleGuy这个账号回答SEO和站长们关于Google和SEO的问题。也许是因为Google内部政策的关系,一直没有人正式确认GoogleGuy这个账号是Matt Cutts。但大家都知道GoogleGuy就是Matt Cutts,至少是以他为主的。就像百度Lee当初是以王淘为主。
2005年,Matt Cutts开了自己的博客:https://www.mattcutts.com/blog/ ,经常发帖回答SEO问题、发布Google算法最新消息。前些年,Matt Cutts也频繁参加SES、SMX、 Pubcon等SEO相关大会。
可以说,Matt Cutts是Google面对站长和SEO界的发言人。我们今天知道的很多SEO知识都来自于Matt Cutts。没有他,我们可能还要在黑暗中探索更久。
2007年,我有幸与Matt Cutts及中日韩文字负责人朱建飞做过一次关于中国搜索和SEO的访谈,全文翻译在这里。这应该是至今为止,中国SEO行业唯一一次与Google工程师的对谈。鉴于目前大家都懂的形势,下一次不知远在什么时候。
我的《SEO实战密码》也是由Matt Cutts写序,非常非常感谢。
三四年前,Matt Cutts和Google大概都有意让Matt Cutts作为SEO代言人的角色淡化,把和SEO界沟通的任务分散到更多人身上,所以他渐渐减少了参加大会和发帖。2014年7月,Matt Cutts开始休假,虽然偶尔还发些关于SEO和Google的帖子,但基本上大家都预感到,他大概不会再回到Google了,不然哪有休这么长假的。
Matt Cutts的帖子透露,几个月前,他开始参与“美国数字服务”机构(US Digital Service)的项目,本来预期参加3个月,后来延长到6个月。现在则正式加入了US Digital Service,担任工程总裁,并且将在现在的总管理人下台后(现任管理人是政治任命,川普上任后需要总辞?好像是这个意思)担任执行管理人。
US Digital Service负责美国医保等政府网站的数据服务,貌似偏向网络安全方面。
以后不能常常听到Matt Cutts给我们SEO建议了。感谢这些年来Matt Cutts对SEO行业的热情参与和巨大贡献。

2017年4月6日星期四

怎样把Google排名优化到第0位?

前两个星期的帖子《23个统计数字揭示搜索用户行为中》,我提到一句话:
问句式查询近年来占比越来越大,是个可以挖掘的新机会。
之所以问句式查询是个可以挖掘的机会,一是问句式查询量越来越大,和查询词越来越长的总体趋势相同;二是google及百度等搜索引擎现在都会尝试在搜索结果页面最顶端直接给出答案。

什么是第0位排名?

比如搜索“天空为什么是蓝的”,Google结果是这样的:
谷歌精选摘要
最上面的直接答案Google称为featured snippet,谷歌官方翻译为“精选摘要”。这个精选摘要是不算在10条普通搜索结果中的,页面下面还有10个正常结果页面,所以也经常被称为“第0个”排名,比第一位还靠前。
显然,第0位是值得追求的。有的时候,排在第0位不一定会给网站带来点击流量,因为答案已经显示在结果页面上了,比如搜索“姚明的身高是多少”,“刘德华的太太是谁”之类的,答案简洁直接,没必要访问网站了。但稍微复杂一点的查询,光看摘要里的答案可能还不是很明白,需要继续阅读,featured snippet这种排版格式对点击吸引力就不言而喻了。
最经常出现精选摘要的就是上面帖子里提到的新闻写作的5个W、1个H:Who, What, When, Where, Why, How,也就是:
  • xxx是谁?
  • xxx是什么?
  • 什么时候xxx?
  • xxx在哪里?
  • 为什么xxx?
  • 怎样/如何xxx?

那么怎样使页面排名到第0位呢?

不同类型的查询问题,要获得第0位排名有不同要求和方法。
以What类型为例,比如“SEO是什么?
可以尝试几个方法:
  • 首先页面正常排名先要爬到第一页,最好能进前5。精选摘要并不总是原来的第一名结果,否则就意义不大了。一般来说,精选摘要都是选自前5个结果,很小部分是6-10名。
  • 页面标题与查询词高度匹配。
  • 页面最前面用一个段落的文字,通常就是一句话,简洁明确回答“xxx是什么“,或者说给出xxx的定义。
  • 页面上用小标题再问一遍查询的问题。
  • 页面后面的内容再从几个方面详细解释xxx是什么。
看似都不是什么困难的要求,但很多网站上的文章还真不是这样写的。我自己博客帖子能达标的就不多。

这个方法真的管用吗?

还是仅限于猜测?为防止被打脸,我当然是先实验过的。
以“SEO是什么?”为例,这个词搜索量还不太小。两个月前开始做实验。我在这个博客上找到若干年前的这篇帖子,在Google排名一直徘徊在第二页,所以我做了三件事:
  • 把原来的帖子标题从“SEO到底是什么”,改成“到底SEO是什么?”,然后又改成最匹配的“SEO是什么?”
  • 从博客其它帖子提到“SEO是什么”的地方做了几个内链到那个页面。数量不大,只有两三个,因为提到这句话的地方还真不多。
  • 从另一个网站的一个页面做了一个外链,以“SEO是什么”为锚文字。
那个实验页面顺利爬到第一页,最下面位置。
然后在原来帖子里加上了一段文字:
怎样把Google排名优化到第0位
从“先从定义上看看”到“实践中却有些迷惑”是几个星期前加上去的,以前没有。这个段落大致满足了上面列出的第3,4两个要求。小标题里加了“意思”两个字,是试图覆盖另一个类似的查询“SEO是什么意思?”
大致过了一个星期,效果开始出现,搜索“SEO是什么意思”时,我的帖子出现在featured snippet中:
怎样优化到第0位
可以看到,刚好正常排名爬到了第5位。
但搜索“SEO是什么”依然没动静,所以又尝试修改了两个地方:
  • 放上了一张挺丑陋的图片。这个其实是为百度做的,因为百度有图文展示,Google并没有。可惜,百度到目前为止还没有索引新页面内容。顺便说一句,我觉得现在百度的排名算法很多地方比Google不差了,但索引速度差得不是一点半点。
  • 把帖子发布时间从原本的2009年5月14号,改到了2017年3月15号。就博客来说,搜索引擎通常还是喜欢新内容的。
果然,几天后,在Google搜索“SEO是什么”时,我的帖子爬到了第三,出现在精选摘要中:
页面出现在Google featured snippet中
这个带图片的排版还真是丑。
实验结束,我已经把帖子发布时间改回原本的2009年。

这个对百度有用吗?

首先,百度搜索中类似问句式查询也是大量的,比如搜索“SEO”时,底部给出的相关搜索,9个有5个是问句:
百度查询词中的问句式搜索
而百度搜索结果页面顶部也有很多直接答案,同样,搜索“SEO是什么”就能看到。目前唯一的问题是,百度的直接答案大多是百度百科、百度知道等自己的内容。可以在相应的百科、知道页面想办法。另外,谁知道以后会不会增加第三方网站的内容呢。

几点说明

最后再说明几点。
读者现在自己到Google搜索“SEO是什么”,或者“SEO是什么意思”,看到的不一定是上面抓图的样子,更大的可能性出现在精选摘要的不是我的帖子。这是因为,Google会在获得精选摘要权利的几个选项中轮换、比较,继续监测数据。这两个查询问句,有精选摘要状态的至少有6个,我的这个是最新的,不知道能否维持。
对英文网站,尝试出现在featured snippet中是个性价比很高的优化方法。从上面案例看,只要掌握了方法,并不需要做太大努力。很可能一些其它行业的常见问句,简单优化下就行了。相比之下,“SEO是什么”这个词算竞争不小了,首页光知名百科类结果就3个,在我帖子之前已经是featured snippet,我记得的就不少于5个。
而且用户搜索趋向于自然语言,问句式查询会越来越多,语音搜索流行起来就会更多。
当然,不同类型的问句,优化方式肯定有差别。比如针对“怎样做xxx”、“如何xxx“这种搜索,通常需要在最前面用带编号的列表(numbered list)格式列出做xxx的简要步骤,后面再详细解释。其它问句,读者们自己仔细观察一下吧,这个帖子已经这么长了,就从略了。

2017年4月1日星期六

domz开放目录即将关闭

刚才看到报道,SEO们都应该很熟悉的开放目录即将永久关闭。现在访问开放目录(www.dmoz.org,人家就要关了,我也别链接了),首页最上面写着:
Important Notice
As of Mar 14 2017, dmoz.org will no longer be available
(重要通知:2017年3月14号后,dmoz.org将不能访问/不存在)
开放目录英文是Open Directory Project,意译就是开放目录项目。互联网行业也经常称之为dmoz,其官网也是dmoz.org,因为开放目录自称为Directory Mozilla,目录中的Mozilla。问什么叫Mozilla呢?因为Mozilla在早期互联网是个特牛x的词,最早的浏览器,网景浏览器(Netscape)的开发代号是Mozilla,后来演变成影响力很大的非营利组织之一。很多开源软件的总称也是Mozilla。
现在查看原始日志时还是能看到,大部分浏览器的用户代理名称中还带着mozilla字样,虽然和网景浏览器其实没什么关系了。
开放目录简单说就是个人工编辑的网站分类目录,和雅虎最开始时的形态是一样的。SEO行业最熟悉开放目录,是因为它是早期SEO优化最强悍的外部链接来源之一,大家挤破头想被收录,而开放目录收录标准还是挺高的。也正是这个原因,很多当年活跃的SEO人都是很高级别的dmoz编辑,比如我自己,还有那谁,那谁,和那谁,等等。
后来链接在搜索引擎算法中所占比例下降,而且大量目录本身质量也下降,目录链接重要性随之下降。但开放目录还是不多的推荐尽量做的目录类链接之一。而且被开放目录收录本身就是件挺值得得瑟的事。另一个值得做的目录链接是雅虎,但雅虎目录早就死翘翘了,2014年就下线了。现在开放目录也要消失了。
最后得瑟一下,也是纪念一下,本博客在开放目录的收录抓图。建议有被开放目录收录的都抓图纪念一下吧,过两个星期就将永远从网上消失了。
SEO每天一贴在开放目录dmoz中的收录纪念