数据分析 | simon博客

Archive | 数据分析

RSS feed for this section

Tags: 数据分析

Google Chart API 图表

Posted on 06 5 月 2013 by simon

google chart 图表还是比较方便的，尤其是在利用api接口，生成图片形式，可以用来做数据统计分析，数据监控。

相关链接：

http://www.ruanyifeng.com/blog/2007/12/google_chart_api.html

http://www.haijd.net/archive/computer/google/google_chart_api/api.html

Google Chart API 参考中文版

文档信息

翻译: Cloudream ，最后修改:02/21/2008 22:11:08

英文版版权归 Google , 转载此中文版必须以链接形式注明原文地址、译者信息及本声明。

API 参考：http://labs.cloudream.name/google/chart/api.html

常见问题：http://labs.cloudream.name/google/chart/faq.html

简介

Google Chart API 为您提供动态创建图表的功能。单击下边的网址查看示例演示：

http://chart.apis.google.com/chart?cht=p3&chd=s:hW&chs=250×100&chl=Hello|World

您应该看到如下图表

示例演示

目录

目的

本文档为使用 Google Chart API 的开发者提供 API 参考及参数说明。

↑返回目录

使用方针

每位用户每天可发送 50,000 次请求。超过此限制后 Google 将暂时拒绝您的请求，若您继续发送请求，Google 可能会永久拒绝您的服务请求。

Continue Reading

Tags: Cygwin, 日志分析

蜘蛛日志一键分析整理脚本，工具为Cygwin

Posted on 20 3 月 2013 by simon

此代码为自用log一键分析日志脚本，使用工具为Cygwin，各位可参照修改其中参数。

使用方法很简单：直接复制到Cygwin，回车执行，总体运行效率还是可以的，各个要素都有数据文件输出。
———一键代码日志拆分by simon ——

更新日志：

3月18日：添加排除特征库代码（考虑到某些日志文件里会有很多干扰数据的原因）

1月5日：建立版本V1.0

—日志先清理##字符串，全部替换为空，用sed替换掉，代码如下

cat *>rz.log
sed -e ‘s/##/ /g;s/ 115.238.101.227//g;s/ 112.25.11.14,//g’ rz.log >rzql.log
[说明]：-e代表多个规则，s/X1/X2/g中为语法,X1为替换前字符串，X2为替换后，多个规则用;代替。

[我的log标准日志格式为，可自定义]：
123.125.71.77 – – [25/Dec/2013:00:01:17 +0800] “GET /URL HTTP/1.0” /database/webroot/showthread.php 200 11057 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)” 172.17.1.101

特征库：（排除监控代码、局域网IP、服务器IP等）
– – – \[(.*?).*
.*jiance.php .*
42.121.107.149
112.25.11.14,
115.238.101.227
101.226.4.1.,
123.126.50.183,
123.151.42.48
172.17.1… #服务器局域网的IP范围匹配# Continue Reading

Tags: 404, google, robots.txt, trackPageview

URL中过多的参数是否会将google蜘蛛带入抓取死循环？

Posted on 18 9 月 2012 by simon

看到这个标题可能不少人是嗤之以鼻的，您还以为是90年代？~~不，今天我们讨论的是URL过多参数带来的次级影响，而非这个url本身.

URL中过多的参数是否会将google蜘蛛带入抓取死循环？

答案是肯定的，不过有一个前提，你的GA代码里的trackpageview开启了自定义页面（即虚拟页面）。

经过一段时间的研究发现，google确实会发生此种情况（百度对GA的JS应该是直接跳过的，根本不理睬~）。上次曾写过一篇此类的问题：关于GA代码里的trackPageview的url问题，代码404？当时以为是因为格式符合的问题，目前看来不是那个问题，而是google自身的问题。

一般意义上，随着搜索引擎技术的发展，常规的url，即使有10多个参数，搜索引擎也是能够抓取的，没有错。百度和google都能做到。

可如果在这些URL拥有很多参数的页面里，JS的GA代码里trackpageview带有一个相对的地址（为了便于数据统计），那么google此时就开始犯傻了。不知道这是否是个bug？疯狂的抓取的这些不存在的页面，造成整个网站数量级上面的404页面，足足有18万之多，而且呈每日3000左右的递增，这让人情何以堪。。。

造成的影响就是，google蜘蛛抓取非常不稳定，收录，来访次数，来自google的流量等等都开始下降。。。

查阅了很多资料，根本找不到相关描述文档。

————————此处后期更新——————————

2013年1月最新更新：经过查阅相关资料，google对于此类页面是有抓取的，无法避免此缺陷

那么对我们目前来说，如何解决这个问题呢？

1、我们应该尽快将页面的动态形式更改为伪静态化后的，过多的参数也影响的蜘蛛抓取效率。

2、直接取消目前的自定义页面形式，采用默认的即可。（本人不建议此类操作，因为这样修改后，会造成数据缺失，前后数据无法衔接，无法统一分析，属于下下策，bad work）

Continue Reading

斗牛SEO工具

斗牛SEO工具集（免费）

关键词排名批量查询工具

URL收录批量查询工具

百度指数批量查询工具

PR/SR/百度权重批量查询

HTTP状态码批量查询工具

爱站关键词采集挖掘工具

SERP标题描述预览工具

页面URL一键提取器

长尾词拓展工具(百度商情)

百度凤巢长尾词拓展工具

①群：145876858(已满)

②群：106983747(未满)

精选内容
随便看看
最新评论

<推荐：PC端最专业的SEO综合工具>

分类目录
- Life (12)
- SEO (16)
- SEO新手入门 (12)
- 个人软件 (20)
- 中文分词 (3)
- 思维想法 (3)
- 推荐阅读 (39)
- 数据分析 (3)
- 网络技术 (41)

文章归档
- 2025 年 10 月 (1)
- 2025 年 9 月 (2)
- 2025 年 1 月 (1)
- 2023 年 2 月 (2)
- 2018 年 11 月 (1)
- 2018 年 10 月 (1)
- 2017 年 10 月 (3)
- 2017 年 5 月 (1)
- 2017 年 3 月 (1)
- 2017 年 1 月 (1)
- 2015 年 11 月 (1)
- 2015 年 6 月 (1)
- 2015 年 5 月 (2)
- 2015 年 4 月 (1)
- 2015 年 2 月 (3)
- 2014 年 11 月 (1)
- 2014 年 10 月 (2)
- 2014 年 7 月 (1)
- 2014 年 6 月 (1)
- 2014 年 5 月 (3)
- 2014 年 4 月 (3)
- 2014 年 3 月 (2)
- 2014 年 2 月 (1)
- 2014 年 1 月 (2)
- 2013 年 12 月 (2)
- 2013 年 11 月 (1)
- 2013 年 10 月 (5)
- 2013 年 9 月 (6)
- 2013 年 8 月 (6)
- 2013 年 6 月 (1)
- 2013 年 5 月 (1)
- 2013 年 3 月 (1)
- 2012 年 10 月 (2)
- 2012 年 9 月 (3)
- 2012 年 8 月 (7)
- 2012 年 7 月 (12)
- 2012 年 6 月 (5)
- 2012 年 5 月 (4)
- 2011 年 2 月 (3)
- 2010 年 5 月 (2)