如何查看百度蜘蛛，google蜘蛛爬取记录？《网站日志分析篇》

Categorized | SEO新手入门, 推荐阅读

如何查看百度蜘蛛，google蜘蛛爬取记录？《网站日志分析篇》

发布于 2012年08月26日作者：simon

也许各位常常看到别人在群里聊天，某某人的网站出现什么问题了。。。别人建议查看网站的日志文件，分析蜘蛛的爬取情况。可是如何去分析日志文件却很少有人去提，接下来我会大概介绍一下，如何去分析网站的日志文件，找出网站可能出现的问题等等。

一般我们的服务器是可以开启蜘蛛爬取记录文件的，如果没有开启这功能，可联系空间商要求开通此功能，通过分析web log，找出自己站的问题所在。

日志文件一般是log为扩展名的文件，有的是GZ压缩后的文件，没有关系，我们下载下来，可以直接用记事本打开log文件，可看到里面的爬取记录。

格式大致都是如下这种：

220.181.108.175 – – [25/Jul/2012:11:54:58 -0700] "GET /sitemap.xml HTTP/1.1" 304 0 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

说明：第一个IP是蜘蛛的IP地址，依次为抓取时间，get的文件名，协议，状态码，百度蜘蛛。

请特别注意一下，状态码，如果网站出现很多404，需要在robots里屏蔽或者汇总提交给站长工具至搜索引擎，否则网站在搜索引擎眼里就是个很不正常的站点，而且网站的抓取也很有问题，需要正视这个问题，因为不少人的站点都是这个原因引起的，而自己却浑然不知。

当然状态码只是一个方面，我们可以分析，蜘蛛每次来的时间大概是什么时候，每次蜘蛛来网站后共抓取多少个页面，每次在网站上停留多少时间。通过汇总一个时间段的web log，可以分析出自己页面的哪些目录还没有被搜索引擎抓取到，自己是否可以在适当的位置展示这些页面，或者通过站长工具的sitemap提交，多做些高质量的外链来达到收录效果。

相信我，利用好web log会让你受益无穷！