Archive | 数据分析

Google Chart API 图表

Tags:

Google Chart API 图表

Posted on 06 5 月 2013 by simon

google chart 图表还是比较方便的,尤其是在利用api接口,生成图片形式,可以用来做数据统计分析,数据监控。

相关链接:

http://www.ruanyifeng.com/blog/2007/12/google_chart_api.html

 http://www.haijd.net/archive/computer/google/google_chart_api/api.html

Google Chart API 参考 中文版

文档信息

翻译: Cloudream ,最后修改:02/21/2008 22:11:08

API 参考:http://labs.cloudream.name/google/chart/api.html

常见问题:http://labs.cloudream.name/google/chart/faq.html

简介

Google Chart API 为您提供动态创建图表的功能。单击下边的网址查看示例演示:

http://chart.apis.google.com/chart?cht=p3&chd=s:hW&chs=250×100&chl=Hello|World

您应该看到如下图表

示例演示

目录

  1. 目的
  2. 使用方针
  3. 简介
  4. URL格式
  5. 必须、可选参数
  6. 图表尺寸
  7. 图表数据
  8. 图表类型
  9. 颜色
  10. 标注
  11. 样式

目的

本文档为使用 Google Chart API 的开发者提供 API 参考及参数说明。

↑返回目录

使用方针

每位用户每天可发送 50,000 次请求。超过此限制后 Google 将暂时拒绝您的请求,若您继续发送请求,Google 可能会永久拒绝您的服务请求。

Continue Reading

Comments (3)

Tags: ,

蜘蛛日志一键分析整理脚本,工具为Cygwin

Posted on 20 3 月 2013 by simon

此代码为自用log一键分析日志脚本,使用工具为Cygwin,各位可参照修改其中参数。

使用方法很简单:直接复制到Cygwin,回车执行,总体运行效率还是可以的,各个要素都有数据文件输出。
———一键代码 日志拆分by simon ——

更新日志:

3月18日:添加排除特征库代码(考虑到某些日志文件里会有很多干扰数据的原因)

1月5日:建立版本V1.0

—日志先清理##字符串,全部替换为空,用sed替换掉,代码如下

cat *>rz.log
sed -e ‘s/##/ /g;s/ 115.238.101.227//g;s/ 112.25.11.14,//g’ rz.log >rzql.log
[说明]:-e代表多个规则,s/X1/X2/g中为语法,X1为替换前字符串,X2为替换后,多个规则用;代替。

[我的log标准日志格式为,可自定义]:
123.125.71.77 – – [25/Dec/2013:00:01:17 +0800] “GET /URL HTTP/1.0” /database/webroot/showthread.php 200 11057 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)” 172.17.1.101

特征库:(排除监控代码、局域网IP、服务器IP等)
– – – \[(.*?).*
.*jiance.php .*
42.121.107.149
112.25.11.14,
115.238.101.227
101.226.4.1.,
123.126.50.183,
123.151.42.48
172.17.1… #服务器局域网的IP范围匹配# Continue Reading

Comments (9)

wlEmoticon-openmouthedsmile.png

Tags: , , ,

URL中过多的参数是否会将google蜘蛛带入抓取死循环?

Posted on 18 9 月 2012 by simon

看到这个标题可能不少人是嗤之以鼻的,您还以为是90年代?~~不,天我们讨论的是URL过多参数带来的次级影响,而非这个url本身.

URL中过多的参数是否会将google蜘蛛带入抓取死循环?

答案是肯定的,不过有一个前提,你的GA代码里的trackpageview开启了自定义页面(即虚拟页面)。

经过一段时间的研究发现,google确实会发生此种情况(百度对GA的JS应该是直接跳过的,根本不理睬~)。上次曾写过一篇此类的问题:关于GA代码里的trackPageview的url问题,代码404? 当时以为是因为格式符合的问题,目前看来不是那个问题,而是google自身的问题。

一般意义上,随着搜索引擎技术的发展,常规的url,即使有10多个参数,搜索引擎也是能够抓取的,没有错。百度和google都能做到。

可如果在这些URL拥有很多参数的页面里,JS的GA代码里trackpageview带有一个相对的地址(为了便于数据统计),那么google此时就开始犯傻了。不知道这是否是个bug?疯狂的抓取的这些不存在的页面,造成整个网站数量级上面的404页面,足足有18万之多,而且呈每日3000左右的递增,这让人情何以堪。。。

造成的影响就是,google蜘蛛抓取非常不稳定,收录,来访次数,来自google的流量等等都开始下降。。。

查阅了很多资料,根本找不到相关描述文档。

————————此处后期更新——————————

2013年1月最新更新:经过查阅相关资料,google对于此类页面是有抓取的,无法避免此缺陷  

那么对我们目前来说,如何解决这个问题呢?

1、我们应该尽快将页面的动态形式更改为伪静态化后的,过多的参数也影响的蜘蛛抓取效率。

2、直接取消目前的自定义页面形式,采用默认的即可。(本人不建议此类操作,因为这样修改后,会造成数据缺失,前后数据无法衔接,无法统一分析,属于下下策,bad work)

Continue Reading

Comments (0)

斗牛SEO工具