URL中过多的参数是否会将google蜘蛛带入抓取死循环？

Categorized | SEO, 推荐阅读, 数据分析

Tags | 404, google, robots.txt, trackPageview

URL中过多的参数是否会将google蜘蛛带入抓取死循环？

发布于 2012年09月18日更新于 2013年11月20日作者：simon

看到这个标题可能不少人是嗤之以鼻的，您还以为是90年代？~~不，今天我们讨论的是URL过多参数带来的次级影响，而非这个url本身.

URL中过多的参数是否会将google蜘蛛带入抓取死循环？

答案是肯定的，不过有一个前提，你的GA代码里的trackpageview开启了自定义页面（即虚拟页面）。

经过一段时间的研究发现，google确实会发生此种情况（百度对GA的JS应该是直接跳过的，根本不理睬~）。上次曾写过一篇此类的问题：关于GA代码里的trackPageview的url问题，代码404？当时以为是因为格式符合的问题，目前看来不是那个问题，而是google自身的问题。

一般意义上，随着搜索引擎技术的发展，常规的url，即使有10多个参数，搜索引擎也是能够抓取的，没有错。百度和google都能做到。

可如果在这些URL拥有很多参数的页面里，JS的GA代码里trackpageview带有一个相对的地址（为了便于数据统计），那么google此时就开始犯傻了。不知道这是否是个bug？疯狂的抓取的这些不存在的页面，造成整个网站数量级上面的404页面，足足有18万之多，而且呈每日3000左右的递增，这让人情何以堪。。。

造成的影响就是，google蜘蛛抓取非常不稳定，收录，来访次数，来自google的流量等等都开始下降。。。

查阅了很多资料，根本找不到相关描述文档。

————————此处后期更新——————————

2013年1月最新更新：经过查阅相关资料，google对于此类页面是有抓取的，无法避免此缺陷

那么对我们目前来说，如何解决这个问题呢？

1、我们应该尽快将页面的动态形式更改为伪静态化后的，过多的参数也影响的蜘蛛抓取效率。

2、直接取消目前的自定义页面形式，采用默认的即可。（本人不建议此类操作，因为这样修改后，会造成数据缺失，前后数据无法衔接，无法统一分析，属于下下策，bad work）

3、当然可以给google方面反馈此问题，期待下次产品更新。

4、终极大招：robots屏蔽掉这些目录，一般来说，为了便于分析，自定义页面的路径比较有规律，很好划分，最多就几个大目录下的，robots屏蔽一下这些不存在的目录即可。

什么？中文目录如何用robots.txt屏蔽？给中文字符进行url转码即可~

欢迎交流！