URL中过多的参数是否会将google蜘蛛带入抓取死循环?

发布于 2012年09月18日

看到这个标题可能不少人是嗤之以鼻的,您还以为是90年代?~~不,天我们讨论的是URL过多参数带来的次级影响,而非这个url本身.

URL中过多的参数是否会将google蜘蛛带入抓取死循环?

答案是肯定的,不过有一个前提,你的GA代码里的trackpageview开启了自定义页面(即虚拟页面)。

经过一段时间的研究发现,google确实会发生此种情况(百度对GA的JS应该是直接跳过的,根本不理睬~)。上次曾写过一篇此类的问题:关于GA代码里的trackPageview的url问题,代码404? 当时以为是因为格式符合的问题,目前看来不是那个问题,而是google自身的问题。

一般意义上,随着搜索引擎技术的发展,常规的url,即使有10多个参数,搜索引擎也是能够抓取的,没有错。百度和google都能做到。

可如果在这些URL拥有很多参数的页面里,JS的GA代码里trackpageview带有一个相对的地址(为了便于数据统计),那么google此时就开始犯傻了。不知道这是否是个bug?疯狂的抓取的这些不存在的页面,造成整个网站数量级上面的404页面,足足有18万之多,而且呈每日3000左右的递增,这让人情何以堪。。。

造成的影响就是,google蜘蛛抓取非常不稳定,收录,来访次数,来自google的流量等等都开始下降。。。

查阅了很多资料,根本找不到相关描述文档。

————————此处后期更新——————————

2013年1月最新更新:经过查阅相关资料,google对于此类页面是有抓取的,无法避免此缺陷  

那么对我们目前来说,如何解决这个问题呢?

1、我们应该尽快将页面的动态形式更改为伪静态化后的,过多的参数也影响的蜘蛛抓取效率。

2、直接取消目前的自定义页面形式,采用默认的即可。(本人不建议此类操作,因为这样修改后,会造成数据缺失,前后数据无法衔接,无法统一分析,属于下下策,bad work)

3、当然可以给google方面反馈此问题,期待下次产品更新。

4、终极大招:robots屏蔽掉这些目录,一般来说,为了便于分析,自定义页面的路径比较有规律,很好划分,最多就几个大目录下的,robots屏蔽一下这些不存在的目录即可。

什么? 中文目录如何用robots.txt屏蔽? 给中文字符进行url转码即可~

欢迎交流!

看了此文的人貌似还看了这些:

  • 关于GA代码里的trackPageview的url问题,代码404? 2012-08-25
  • google蜘蛛抓取频率被改为特殊抓取率,很人性化! 2011-02-22
  • 360极速浏览器在chrome商店无法安装插件提示不支持版本的解决方法 2014-07-11
  • wordpress换空间实录,让windows的iis也支持去固定链接index.php化! 2011-02-21
  • 2012年5月26日晚间小记,另seo教程plan 2012-05-27
  • dedecms三级栏目SEO标题设置问题 2012-06-29
  • SEO乱象之《SEO新手入门》 2012-07-07
  • 斗牛SEO工具VIP版V11.1已发布 – SEOer的瑞士军刀! 2014-05-17
  • [已招到]招聘SEO,坐标南京 2017-10-10
  • Google Analytics初级教程[GA官方教程]合集 2012-06-20
  • 发表评论

    Time limit is exhausted. Please reload CAPTCHA.

       我相信你,不会发广告!

    斗牛SEO工具