banner图3
bnner图2
bnner图
解析谷歌收录逐渐变少的原因

当前位置:首页-网站优化 内容点击数: 时间: 2013-05-27

一、谷歌收录突然骤减的现象

这个事qing来的很突然,网站在出现问题前并没有做任何调整,也从来没有作弊行为。所以,首先分析的是网站是否被降权:

1site指令还有网站首页记录。

2、用网站名进行搜索还排在第一,并且多个关键词还存在排名。

3、站点的sitelink还在(谷歌对于网站的一种奖励,被降权根本不可能会有)。

4、收录虽然减少但对流量的影响不大。

以 上现象表明网站并未被降权,很可能是谷歌算法变动或fu务器出了问题。没两天,很多业界朋友纷纷反映遇到了这个问题,社区里讨论这个话题的人也越来越多。很 多人都认为是谷歌fu务器搬至香港而引起的问题,选择守株待兔静待其变。但随着时间的推移,谷歌收录骤减的现象并无消减,越来越多的网站陷入此境。

二、谷歌数据的一些异常现象

经过一段时间的观察与分析,发现谷歌数据的一些异常现象:

1site指令结合inurl指令查询的收录数竟是正常的,收录数与出问题前的数据都比较吻合,大多数问题站点都应证了这一点。两条指令并操作后本应返回比单独site时结果少,但现在却不少反多:site:example.com inurl:example

2、最近一年的收录数远远大于目前的收录数。

3、收录数偶尔回跳,偶尔进行site查询时收录又突然跳回几万的数据。

4、国内的fu务器日志记录中谷歌蜘蛛(GoogleBot)返回了大量404信息,而国外主机的fu务器日志中谷歌蜘蛛抓取正常。附上其中一条日志:

203.208.60.178 [15/Jul/2010:10:14:56 +0800] "-" "GET /robots.txt HTTP/1.1" 404 208 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +)"

该日志显示GoogleBot来访时没有提交HTTP_HOST 的信息(HTTP_HOST为定制的信息,并非标准Apache下的Log格式),所以GET前是一个分割线。robots.txt文件实际上是存在的,分析的可能原因是fu务器是根据user-agent请求的HTTP_HOST 信息判断用户所请求的是哪个域名下的文件,如果请求信息为空,fu务器就不知道该返回什么信息给GoogleBot,故而返回了404信息。举个例子:

bbs.example.com/test.htmlexample.com/test.html可能就不是同一个文件,如果GoogleBot不告诉fu务器是请求的HTTP_HOST bbs.example.com还是example.com的话就不知道返回哪个test.html文件。(本站分国内、外主机比较特殊,不一定适用国内站长,但同样欢迎有收录骤减qing况的朋友能够提供日志信息一同分析。

尽管我们有足够的理由去认为是谷歌搬至香港所引起的问题,尽管我们发现了一些谷歌的一些异常现象,但那些都是外在因素,我们可能忽略了去检查网站自身的问题。

三、如何恢复站点的谷歌收录量

我们知道,网站要被收录就两点:1、蜘蛛抓取顺畅;2、内容质量。想办法让新更新的内容曝光在蜘蛛容易抓取的页面,并且保证内容独一无二。

内容重复可能是病因

经过对网站进行全面的检查,发现网站存在一些内容重复的问题,某些页面相似度达到了40%甚至更高。

找到内容相似度高的页面,增加相关内容的信息调用(同分类、同Tag之类的信息调用)以增强页面的相关性,同时将一些相似度高的重复信息在某些页面进行删除(比如AB相似度,除了增加A的内容外,减少B的重复内容也能够有效减少重复),最后将页面的相似度控制在10%以内,谷歌的收录量总算止住了减少的趋势,不过可怜的3000收录量已经让人惨目忍睹。

这里提醒下各位朋友回头查一查网站自身的一些问题,借助fu务器日志进行分析是再好不过了。

接下来继续增加新更新内容在网站收录的曝光度,让蜘蛛来到首页都有内容可抓。然后对一些链接进行了优化,将302链接修改到直接链接到的地址,省去中间URL跳转处理的一环。某些不存在的页面并且蜘蛛还在爬的页面则想办法将死链接去掉,并借助谷歌管理员工具删除该URL地址省去蜘蛛再去费精力去抓取这个不存在的页面。总之原则只有一个:提高蜘蛛爬取效率,不让蜘蛛爬没有价值的页面。将你网站每天的抓取量提高到几万并解决内容质量问题,收录不可能提不高。

最后你最好检查下fu务器是否稳定的问题。目前这个问题并无定论也没有一个绝对的解决方案,欢迎大家交换意见,将你发现的现象与有价值的数据分享出来一起讨论。