Archive | 网络技术

Tags: ,

谷歌全球IP奉上!

Posted on 13 6 月 2014 by simon

目前谷歌已经被全面封锁了,日常工作中多少还是会受影响的,特别是想找个资料啥的,能急死你。。

现奉上谷歌全球39个地区的ip,其中有些是可以用的,改下hosts。为避免和谐,请自己筛选。。

至于怎么找出有用的ip?可选择页面右侧→_→ http状态码批量查询工具,状态码为0的即表示无法打开。

合理使用工具,同样一件事效率可以相差N倍。。。

————————————start——————————

Bulgaria
93.123.23.1
93.123.23.2
93.123.23.3
93.123.23.4
93.123.23.5
93.123.23.6
93.123.23.7
93.123.23.8
93.123.23.9
93.123.23.10
93.123.23.11
93.123.23.12
93.123.23.13
93.123.23.14
93.123.23.15
93.123.23.16
93.123.23.17
93.123.23.18
93.123.23.19
93.123.23.20
93.123.23.21
93.123.23.22
93.123.23.23
93.123.23.24
93.123.23.25
93.123.23.26
93.123.23.27
93.123.23.28
93.123.23.29
93.123.23.30
93.123.23.31
93.123.23.32
93.123.23.33
93.123.23.34
93.123.23.35
93.123.23.36
93.123.23.37
93.123.23.38
93.123.23.39
93.123.23.40
93.123.23.41
93.123.23.42
93.123.23.43
93.123.23.44
93.123.23.45
93.123.23.46
93.123.23.47
93.123.23.48
93.123.23.49
93.123.23.50
93.123.23.51
93.123.23.52
93.123.23.53
93.123.23.54
93.123.23.55
93.123.23.56
93.123.23.57
93.123.23.58
93.123.23.59
Continue Reading

Comments (0)

Tags: , ,

线程中使用正则表达式cpu占用100%解决方案

Posted on 29 5 月 2014 by simon

如果线程中使用了正则表达式,程序运行中发现cpu占用率达到100%,电脑基本处于卡死的状态,基本上可以判断为正则表达式无法与目标数据匹配,正则表达式的写法有问题,程序会一直处于匹配中,这时候软件并不会出错,而是表现为cpu占用率100%。。。

正则表达式

调试此类问题步骤:

1、因为当cpu占用率100%时,基本无法调试了,电脑非常卡,必须降cpu。可以设置程序的cpu亲和性,绑定某一个cpu内核(现在大部分电脑都是双核以上机器了吧);或者直接在任务管理器里–找到程序进程名–右击–设置相关性–绑定某一个内核即可,这样cpu占用率最高也不会超过内核数的几分之一。

2、然后使用单线程调试,多线程也可,不过数据要归好类,对采样的数据进行正则匹配测试,可以在notepad++中测试正则写法,或者一些在线测试工具也可。 Continue Reading

Comments (0)

Tags: , , ,

斗牛NLPIR中文分词工具V1.1 – 支持目录级文件的批量分词、新词识别

Posted on 19 5 月 2014 by simon

斗牛NLPIR中文分词工具V1.1已发布,本分词工具采用NLPIR2014最新版。可直接对文件夹里所有文件自动分词,提取关键词(包括对未登录词的识别),支持词性标注及自定义词典。

软件特色:

1、支持对目录级别的所有文件直接批量分词

2、支持批量提取多个文件里的关键词,带权重值输出(此值非TF-IDF,而是交叉熵),包含新词(未登录词)识别等

3、支持分词结果的词性标注,如人名、地名、机构名、数词、时间词等等。

4、支持用户自定义词典,在\dat\userdict.txt里添加

使用方法:

1、将待分词的文本都放入到一个文件夹中

2、直接拖动文件夹至软件窗口或浏览到对应目录

3、点开始运行或提词。

温馨提示:待分词的文本编码需为ANSI,否则可能会出现乱码的情况。可用notepad++打开后,右下角状态栏提示编码。

软件截图:

 

斗牛中文分词工具

 

软件下载: www.douniu.la 已集成至斗牛SEO工具中!

 

Comments (3)

Tags: ,

斗牛SEO工具VIP版V11.1已发布 – SEOer的瑞士军刀!

Posted on 17 5 月 2014 by simon

斗牛SEO工具VIP版V11.1发布了 -SEOer的瑞士军刀!

斗牛SEO官网:www.douniu.la 官方售卡系统(全自动发货):http://www.douniu.la/sale.php

斗牛SEO工具

[VIP开通流程]:去官方的售卡系统购买注册卡(目前为三种,季卡、半年卡、年卡),然后下载软件,在软件界面注册开通VIP账号,有疑问可联系客服QQ:604886421

购买VIP后可进入斗牛SEO工具高级群!

公开QQ群:145876858     106983747

写在前面:实行付费功能后,斗牛SEO工具VIP版进入常态化更新,保证一直可用;同时斗牛SEO工具包含的会越来越多,不仅仅是目前的这些工具,会根据作者本人或大家的工作需求等等因素,陆续发布上来,成为VIP后可一直使用,绝对是目前性价比最高的SEO工具。

所有软件全部采用数字签名的方式发布,可以通过右键–属性–数字证书查看到作者信息。如果没有相应信息的,一律为破解版,相应大家能够辨识吧。
工具收费的目的是为了能够让斗牛延续下去,否则实在是没精力更新了,当然收费也是极低的。。。

备注:VIP版即使不付费也可以使用大部分功能,不过查询数量上会有所限制,具体请参照软件说明,VIP则无任何限制。

目前发布的是11个工具,故VIP版本号从11开始。。。

V11.1更新日志:

一、【关键词排名批量查询工具】
升级至V7.1
1、网页访问方式更改为curl
2、添加自动换ip功能,如遇验证码会随机选择一条代理ip
3、添加一词对应一个URL查询模式,即外推专用版,免费用户有查询数量限制
4、改善界面底部的TOP数字长度
5、修复之前6.2版本的bug,及功能改进等等

二、【URL收录批量查询工具】
升级至V4.0
1、网页访问方式更改为curl
2、添加自动换ip功能,如遇验证码会随机选择一条代理ip
3、修复3.2版本的小bug

三、【百度竞价长尾词拓展工具】
升级至V4.0
1、添加长尾词必须包含种子词的功能
2、添加获取结果实时写入到本地文件的功能,尤其适合对大量数据的长时间采集,免费版无此功能。

四、【百度商情长尾词拓展工具】
升级至V3.0
1、添加提取指数功能,获取的长尾词自带指数数据,免费版无此功能。
2、完善获取结果实时写入到本地文件的功能,方便大数据量处理。

五、【爱站关键词工具】
升级至V4.0
1、网页访问方式更改为curl
2、添加自动换ip功能,如遇验证码会随机选择一条代理ip
3、部分功能的优化

六、【中文分词工具NLPIR】
升级至V1.1,免费用户无法使用
分词工具采用NLPIR2014最新版
1、支持对目录级别的所有文件直接批量分词
2、支持批量提取多个文件里的关键词,带权重值输出(此值非TF-IDF,而是交叉熵),包含新词(未登录词)识别等
3、支持分词结果的词性标注,如人名、地名、机构名、数词、时间词等等。
4、支持用户自定义词典,在\dat\userdict.txt里添加

七、【http状态码批量查询工具】
升级至V3.0
1、网页访问方式更改为curl
2、修改内部访问逻辑,提高查询效率,及提升稳定性

八、【PR/SR/BR批量查询工具】
升级至V3.0
1、完善返回数据可能为空的情况

九、【页面URL一键提取器】
升级至V3.1
1、添加常用正则的选择列表,更简单易用

十、【百度SERP标题描述预览工具】
升级至V2.0
1、修复之前版本的失效问题
2、添加了百度SERP结果位置的上下移动功能,可对比竞争对手的预览展示
3、去掉了对谷歌的预览功能,基本无人使用

十一、【文章原创度批量检测工具】
升级至V1.1
1、小幅更新,修复针对单篇文章的检测,当提取字段数为0时,会发生崩溃的现象。

十二、【百度指数批量查询工具】
升级至V4.0
因时间问题,暂未添加上,下个版本加上。

 

Comments (3)

Tags: , , ,

易语言curl支持库与WinHttpRequest、WinInet、互联网支持库http访问对比测试

Posted on 30 4 月 2014 by simon

啥是curl?请百度!

一款很强大的网页访问工具,curl是利用URL语法在命令行方式下工作的开源文件传输工具。它被广泛应用在Unix、多种Linux发行版中,并且有DOS和Win32、Win64下的移植版本。

选择一个适当的网页访问工具,往往是关系到一个软件的速度及稳定性。

测试的工具有:

易语言curl支持库、

http读文件(互联网支持库)、

WinInet方式、

WinHttpRequest 5.1对象方式

测试环境:

为避免网络波动影响测试,故本地搭建了IIS环境,网页大小425KB,为模拟真实页面,页面附加4个js文件,小图片28个,全部网页大小为925KB,全部本地化。

测试方式:

连续循环100次访问页面,测试每次耗费时间,取均值(ms)

易语言curl支持库:

* 93.000000
* 16.000000
* 15.000000
* 15.000000
* 16.000000
* 16.000000
* 15.000000
* 16.000000
* 15.000000
* 47.000000
******

均值:51.5ms、

http读文件:

* 7706.000000
* 312.000000
* 608.000000
* 328.000000
* 15.000000
* 16.000000
* 15.000000
* 302.000000
* 15.000000
******

均值:141.9ms

Continue Reading

Comments (4)

Tags: , ,

斗牛文章原创度检测工具V2.0 -支持单篇、多篇文章的原创度检测,SEO编辑必备工具!

Posted on 30 4 月 2014 by simon

斗牛文章原创度检测工具V2.0 – 支持单篇文章、多篇文章的原创度检测,是编辑人员必备的SEO工具!

本工具主要用来检测文章的原创度,判别标准是:页面正文内随机选择连续的中文字符串在百度搜索结果页的飘红情况,提供飘红次数和飘红度数据,支持数据导出。

批量多URL检测是随机选择页面里一个汉字串进行检测;

而单篇文章检测是对所有汉字串进行检测!飘红度越小原创度越高。

使用步骤:

1、将待检测的文章url地址放置在一个txt文本中,一行一个

2、可直接拖到文件至软件窗口,或者点击浏览按钮选择文件,只支持txt文件

3、开始运行即可。

软件功能:

1、支持多线程操作,线程数量可自己控制,默认10

2、支持查询间隔时间设定,默认500ms

3、支持设置查询百度前几页,默认前3页

4、支持页面随机选择的特征字符串汉字个数的设定,默认为20个汉字,可自己控制阀值。

5、遇验证码自动延时等待、自动恢复。

备注说明:

因为是随机选择页面正文的一段字符串,每次查询的原创度数据会有变化,自己控制好汉字个数。

dnycd-1

dnycd-2
Continue Reading

Comments (2)

Tags: , , ,

斗牛百度长尾词拓展工具V4.0 (多种子词批量提取,斗牛SEO工具系列)

Posted on 03 3 月 2014 by simon

长尾词挖掘一直以来都是很必要且重要的SEO工作之一,有了更多的词意味着我们可以布局更多的关键词,带来更多的相关流量,做过大型网站的话,这一点应该深有体会。对于百度凤巢(竞价)里的大量长尾词推荐是不是苦于一直找不到方式批量提取出来? 好了,这款斗牛百度长尾词拓展工具来解决这个问题。

从本版本开始,该工具已集成至斗牛SEO工具里,请至官网下载:www.douniu.la

软件功能:

1、批量提取百度竞价后台的关键词,支持查询间隔设定

2、支持对全部设备、计算机、移动设备的分别查询,使得数据更精准

3、提取结果包含日均搜索量、展现理由、竞争激烈度、搜索量最高月份、分组等数据

4、支持否定词的设定,即排除词,软件会自动过滤包含否定词的结果

5、支持一键导出为excel文件。

更新日志:

2014年5月15日:
升级至V4.0
1、添加长尾词必须包含种子词的功能
2、添加获取结果实时写入到本地文件的功能,
尤其适合对大量数据的长时间采集,免费版无此功能。

2014年3月22日:
更新至V3.0
1、添加必须包含词,非设定词直接过滤掉
2、优化导出较大数据量到本地的卡顿情况
3、解决登陆窗口里手机验证页面无法输入的情况

2014年3月5日:
更新至v2.0
1、添加自动延迟,自动恢复的功能,可自定义延时时间,默认4分钟。
2、登陆窗口添加滚动条,以防页面出现手机验证而出现无法跳转的情况
3、添加一键清空按钮

2014年3月3日
发布版本v1.2
1、修复页面改版导致的登陆界面显示不全

软件说明:

1、使用这款软件,请确保你有百度推广的账号,如果你没有,请直接去百度官网注册一个,免费注册的。

2、如果有api接口的用户,如果需要对接使用api,请提供接口后,联系作者提供api版本给你。
(api的好处:api的提取速度比较快且稳定,用账号提取的话,可能有时候会被限制,不过如果遇到这种情况,可在查询间隔里设置适合的时间即可,正常都没太大问题的。)

API的申请条件和链接 如下:
http://yingxiao.baidu.com/support/api/detail_4682.html 百度推广API地址
申请条件如下:
a. 累计在百度续费3次以上;
b. 账户累计投入RMB 10万元以上;
c. 账户日均消费RMB 800元以上(数据期为最近1个月);

3、百度推广账号里最好没有词,是空号最好;因为如果账号里有词的话,系统会根据你的词来进行匹配推荐一些词给你,可能造成关键词提取不全的情况。

软件截图:

斗牛百度长尾词拓展工具

斗牛SEO官网:http://www.douniu.la/

下载地址:

最新版V4.0:斗牛百度竞价长尾词拓展工具V4.0

历史版本:V2.0 :http://pan.baidu.com/s/1qWpqRrI

欢迎反馈!

Comments (3)

Tags: , ,

斗牛百度指数批量查询工具V3.3(支持多关键词批量查询、多账号cookies提取功能等等)

Posted on 02 1 月 2014 by simon

最近很多工具的百度指数都无法获取了,百度也变更了请求方式,无论是否更换登录账号,单个ip连续查询一定会遇到查询繁忙的提示(连续查询100多个词的情况下),想要获取更多的数据,不仅要换账号还要换ip,需要代理ip,采集成本变高。

目前斗牛百度指数批量查询工具V3.3已推出,继续免费使用,可查询200个词的百度指数;新版本已添加云数据获取。包含:百度指数、百度搜索量、收录量、优化难度等功能,可加QQ群:145876858 获取解压密码!

公告:2023年1月更新:本工具已全面升级,数据100%精准,可直接到淘宝店铺购买(一年不到100,买不了吃亏买不了上当),→购买入口

——————————更新——————————————

更新日志:
2023年1月更新:
全选版本已升级,请看置顶公告。

2014年2月26日:
更新至V3.3
1、修复关键词中有空格,不能查询的bug
2、添加云数据获取,支持百度指数、百度搜索量、收录量、优化难度等数据
3、支持批量提取,目前限制为200个词,注意设置好查询间隔时间。
4、支持查询过程中,暂停、恢复、停止等操作,便于控制。

2014年2月19日:
1、重写代码,获取的百度指数是该词的周平均值。
2、支持自动识别验证码,不过准确率测试中。
3、目前为beta测试版,下个版本计划添加上云数据读取,不再从本地获取数据。

2014年1月9日:
百度更改加密算法,此版本暂不可用,请等待下次版本更新,
已注册用户注册码依然有效。

开发手记:这个工具开发可谓非常纠结。。。刚开始是百度的加密算法,然后是验证码问题,好不容易做了OCR字库,能够自动识别验证码了,可单个账号连续查询还是会遇到“查询繁忙的提示”,无奈只能放弃验证码识别方式;之后添加了多账号登陆功能,然后顺便做了个百度账号的cookies批量采集工具,最后是各种异常情况的判断、以及各个细节的优化、添加注册码验证机制、自动检测更新机制等等工作,搞了有3-4天了,累死。。。软件并没有采用多线程,因为发现数据查询速度在可接受范围内,也不是太慢,如果太快了,我怕封号速度也太快了(目前未发现有封号现象,只是隔一段时间不能查询)。。

目前经过测试,一个账号连续查询几十个词左右会出验证码,软件会自动识别验证码并提交,且会换cookies,账号最好多添加几个,这样就能连续查询了,账号越多越安全。如果你发现软件在不停的换cookies,说明你的cookies太少了,不够用,要添加多些。百度账号可以淘宝购买,1元几十个吧,注意买那些已经验证过邮箱的账号,别买了一堆未验证的账号,这些号是登陆不了的(我试验过了)

软件特色:

1、数据源来自百度官方指数,支持多关键词批量获取

2、目前支持200个关键词的查询,另账号cookies最好自己多准备几个,可通过软件里的获取器来提取cookies。

3、支持多账号cookies批量采集功能,软件会轮换使用cookies:即当一个账号采集失败时,会自动换下一个号采集,总体是循环使用的,所以需要账号越多越好,cookies越多,采集越多。轮换逻辑是1→2→3→n→1→2→3→n的节奏。。

4、软件操作简单,运行软件前,请先保证同目录下的cookies.txt文件中有cookies,下载包里提供了5个cookies,你用自己的号来提取吧。

软件截图:

百度指数批量查询工具

多账号cookies批量提取器:(操作很简单)

操作说明:(导入账号请不要少于3个号,否则导入失败。。。)

1、先导入预先准备好的账号密码,一行一个号,格式为:账号XXX—-密码XXX,中间分隔符可以自己定义,软件里可设置

2、点击“开始提取”,批量登录账号并采集cookies,如果登录异常比较多,请增加提取的时间间隔,毕竟百度也是有限制的,慢点提取,这个可以挂机采的,几十个号一会儿就采集完了。

3、之后导出cookies ,软件会自动过滤无效的cookies,只保存有效的,到本地cookies.txt文件中

Continue Reading

Comments (12)

Tags: ,

斗牛百度商情长尾词拓展工具V3.0(支持万级量的数据查询)

Posted on 26 12 月 2013 by simon

此款长尾词拓展工具数据来自百度商情数据接口,每个词最多可以拓展出200个长尾词,作为平时的长尾词工具补充还是非常不错的,推荐使用。

从本版本开始,该工具已集成至斗牛SEO工具里,请至官网下载:www.douniu.la

更新日志:

2014年5月15日:
升级至V3.0
1、添加提取指数功能,获取的长尾词自带指数数据,免费版无此功能。
2、完善获取结果实时写入到本地文件的功能,方便大数据量处理。

2014年3月25日:
升级至V2.1
1、修复部分关键词无法提取的bug

2014年3月23日:
升级至V2.0
1、添加自动导入本地的功能,大数据量提取专用
2、添加进度条显示及其它优化

2014年2月24日:
升级至V1.2
1、修复查询时有几率崩溃的现象,此问题是模块引起的,现已修复。
2、查询结果为空时,不会写入到编辑框里,更简洁。

2013年12月26日:
1、修复一次性添加大量数据,可能引起的预处理崩溃问题。
2、支持万级量的数据查询处理。

软件特色:

1、数据源来自百度官方的百度商情接口

2、支持不限数量关键词的添加,可达万级数据量的处理

3、支持地区选择匹配数据,可查询各个城市的长尾词分布情况

4、本软件无任何限制,免费使用

软件截图:

simon百度商情长尾词拓展工具V1.1

操作说明:

只需要填入相应母词列表,即可获取相应长尾词,简单、快捷!

软件下载: Continue Reading

Comments (11)

Tags: ,

斗牛页面URL一键提取器V3.1(支持正则、多页面采集,简单、快捷)

Posted on 04 11 月 2013 by simon

这个工具是升级斗牛百度收录批量查询工具V2.0的时候,顺带着做的,只是为了方便查指定规则的URL收录情况,这款工具已经集成到收录查询工具V2.0里了,现在单独提出来,方便大家使用。

此工具的作用?比如,我有一个10页的新闻列表页面,我想查找前5页的新闻页面URL,对于其中的新闻页面URL获取一直都比较麻烦,要么手工导出URL,要么用火车头之类的采集工具,不过火车头这类的工具,有点太过庞杂,操作不太方便。

这款工具正好解决了这个问题,如果再结合斗牛百度收录批量查询工具,这样很容易对比某个时间段的收录情况、收录率等数据。

从本版本开始,该工具已集成至斗牛SEO工具里,请至官网下载:www.douniu.la

更新日志:

2014年5月15日:
升级至V3.1
1、添加常用正则的选择列表,更简单易用

2014年3月24日:
1、添加百度等真实url的获取
2、修复某些相对路径url不能被获取的情况,完全依靠正则来输出url结果
3、可自定义批量替换结果中的字符串
4、只要是页面里面有的链接都能被提取

2014年3月4日:
1、添加采集完成自动保存到本地的功能,以及提醒功能

2014年2月24日:
1、支持批量页面url采集,从此告别复制粘贴的重复操作。
2、支持页面的等差范围选择,比如第1页,11页,21页,类似采集方式。
3、修复部分网站不能采集的问题

2013年11月9日:
1、修复相对路径的URL未被提取的情况,此问题已完美解决,感谢“无名”反馈。
2、修复“官网反馈”的链接错误。

软件特色:

1、支持自定义正则提取URL

2、支持多页面URL提取(自定义页码范围)

3、自动去除重复URL、支持一键复制、清空

4、支持查询间隔设置

等等。。

软件截图:

url一键提取器

软件下载:斗牛页面URL一键提取器V3.1

历史版本:斗牛页面URL一键提取器V3.0

Comments (21)

斗牛SEO工具