Archive | 3 月, 2013

Tags: ,

蜘蛛日志一键分析整理脚本,工具为Cygwin

Posted on 20 3 月 2013 by simon

此代码为自用log一键分析日志脚本,使用工具为Cygwin,各位可参照修改其中参数。

使用方法很简单:直接复制到Cygwin,回车执行,总体运行效率还是可以的,各个要素都有数据文件输出。
———一键代码 日志拆分by simon ——

更新日志:

3月18日:添加排除特征库代码(考虑到某些日志文件里会有很多干扰数据的原因)

1月5日:建立版本V1.0

—日志先清理##字符串,全部替换为空,用sed替换掉,代码如下

cat *>rz.log
sed -e ‘s/##/ /g;s/ 115.238.101.227//g;s/ 112.25.11.14,//g’ rz.log >rzql.log
[说明]:-e代表多个规则,s/X1/X2/g中为语法,X1为替换前字符串,X2为替换后,多个规则用;代替。

[我的log标准日志格式为,可自定义]:
123.125.71.77 – – [25/Dec/2013:00:01:17 +0800] “GET /URL HTTP/1.0” /database/webroot/showthread.php 200 11057 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)” 172.17.1.101

特征库:(排除监控代码、局域网IP、服务器IP等)
– – – \[(.*?).*
.*jiance.php .*
42.121.107.149
112.25.11.14,
115.238.101.227
101.226.4.1.,
123.126.50.183,
123.151.42.48
172.17.1… #服务器局域网的IP范围匹配# Continue Reading

Comments (9)

斗牛SEO工具