Categorized | SEO新手入门, 推荐阅读

如何查看百度蜘蛛,google蜘蛛爬取记录?《网站日志分析篇》

发布于 2012年08月26日

也许各位常常看到别人在群里聊天,某某人的网站出现什么问题了。。。别人建议查看网站的日志文件,分析蜘蛛的爬取情况。可是如何去分析日志文件却很少有人去提,接下来我会大概介绍一下,如何去分析网站的日志文件,找出网站可能出现的问题等等。

一般我们的服务器是可以开启蜘蛛爬取记录文件的,如果没有开启这功能,可联系空间商要求开通此功能,通过分析web log,找出自己站的问题所在。

日志文件一般是log为扩展名的文件,有的是GZ压缩后的文件,没有关系,我们下载下来,可以直接用记事本打开log文件,可看到里面的爬取记录。

格式大致都是如下这种:

220.181.108.175 – – [25/Jul/2012:11:54:58 -0700] "GET /sitemap.xml HTTP/1.1" 304 0 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

 

说明:第一个IP是蜘蛛的IP地址,依次为抓取时间,get的文件名,协议,状态码,百度蜘蛛。

请特别注意一下,状态码,如果网站出现很多404,需要在robots里屏蔽或者汇总提交给站长工具至搜索引擎,否则网站在搜索引擎眼里就是个很不正常的站点,而且网站的抓取也很有问题,需要正视这个问题,因为不少人的站点都是这个原因引起的,而自己却浑然不知。

当然状态码只是一个方面,我们可以分析,蜘蛛每次来的时间大概是什么时候,每次蜘蛛来网站后共抓取多少个页面,每次在网站上停留多少时间。通过汇总一个时间段的web log,可以分析出自己页面的哪些目录还没有被搜索引擎抓取到,自己是否可以在适当的位置展示这些页面,或者通过站长工具的sitemap提交,多做些高质量的外链来达到收录效果。

相信我,利用好web log会让你受益无穷!

看了此文的人貌似还看了这些:

  • link和domain有什么区别? 2012-07-29
  • 什么是nofollow属性?nofollow有什么作用? 2012-10-14
  • 什么是反向链接? 2012-07-29
  • 几大搜索引擎的网站提交登录入口 2012-08-25
  • 什么是目标关键词? 2012-08-11
  • 什么是长尾关键词? 2012-08-11
  • 什么是alt属性、title属性-链接代码篇 2012-07-31
  • 什么是死链接? 2012-07-28
  • 关键词密度设置多少比较好?多少比较合理? 2012-09-18
  • 什么是错误链接? 2012-07-28
  • 2 Comments For This Post

    1. 就是哈哈 Says:

      有对我有用的,转到QQ空间了,嘿嘿

    2. 幸福的小酒 Says:

      博客比我的强多了,学习下

    发表评论

    Time limit is exhausted. Please reload CAPTCHA.

       我相信你,不会发广告!

    斗牛SEO工具