Archive | 推荐阅读

Tags: , ,

百度指数历史数据批量提取查询导出工具(2023年)已更新,支持各省份、城市、PC、移动端数据采集!

Posted on 24 10 月 2014 by simon

 

公告:2023年2月更新:本工具已全面升级,数据100%精准,可直接到淘宝店铺购买(一年不到100,买不了吃亏买不了上当),→购买入口

 

—————————————————————————————————

自从发布了早期版本的百度指数查询工具后,就陆续收到各种邮件询问什么注册码的,为什么不给注册码、怎么使用、如何操作、为啥用不了等等。。。V1.0版本早已发布在群共享里,只是没有在本博客和斗牛SEO工具官方网站里发布,也有很多工具都是直接在群内发布的,斗牛SEO所有工具也一直都在更新的,只是更新了都在群内发布了;做这个工具也权当是给VIP会员的权益,多些工具,能多解决些问题。

总而言之,为了节约大家的时间,这里做一下软件介绍及相关使用说明。

目前本软件已升级至V2.7.2,主要功能是会模拟操作你的浏览器,查询百度指数、百度历史指数(查询时间可自己定义,没有限制)、可以自定义查询各个城市的百度指数、整体、PC、移动端历史指数等等。

更新日志:

2022年12月7日: 请看置顶内容。

2019年4月11日:
重要更新:
本工具暂时失效,如果需要关键词的历史指数可联系作者付费提供,100%精准,0误差,童叟无欺。联系QQ:60488六四二一

2015年2月18日(年三十):
升级至V2.7.2
1、添加关键词与日期范围一一对应的选择项,让关键词列表和时间范围列表依次
从上至下一一对应各自时间段,方便一次对不同词设置不同时间范围,查询更灵活.
2、修复了软件运行过程中出现Y1坐标越界的信息提示。

2015年2月15日:
升级至V2.7.1
1、修复历史时间段识别错误导致无法查询的bug

2015年2月5日:
升级至V2.7
1、添加支持整体趋势、PC端、移动端趋势历史数据的单独查询;
2、支持遇验证码自动ADSL拨号换IP功能,真正实现了不需要人工操作,挂机采集;
3、对于历史数据的采集结果,不再在软件界面上显示,直接增量添加到当面目录的
   date_index.txt里,适合挂机,不怕断电等等因素;
4、优化部分win64系统获取数据为空的问题,注意本软件不支持浏览器为64位的
   程序,比如Chrome就有64位的版本,这个版本是不支持的,换成32位就可以
   继续查了。或者你换个浏览器,比如360极速浏览器、IE浏览器等等。
   建议使用Goole Chrome32位、360极速Chrome。
   所以为了统一,我建议大家都用win7或XP 32位系统,不使用64位系统。
   64位系统注册插件,参见文章末尾的
(经过测试,采集2000个词的近2年所有历史数据,防卡延时设置5秒,大约需要挂机
十多个小时才能完成采集。对于少部分的数据为-1,一般需要人工输入刻度值辅助查
询,这部分占比较少,原因是图像干扰了刻度识别。)

2014年11月3日:
升级至V2.5
1、添加自定义时间,循环时间查询的功能,更方便;
2、添加识别坐标刻度值错误的提醒功能;

2014年10月24日:
升级至V2.4.1
1、添加横向偏移的微调设置功能
2、优化软件稳定性

....

2014年10月15日:
升级至v2.0
1、添加半人工查询模式,可手动输入刻度值
2、添加气泡提示运行状态

2014年8月25日:
发布版本v1.0

备注:本软件有2种查询模式,

一、百度指数的实时指数(就是页面上显示那个数值),可以选择近7天,近30天。

二、百度历史指数的数据,这个数据因为是采用图像识别技术,会有5%左右的误差,对于这样的数据,可以在软件选项里,进行坐标精准性微调,调整坐标横向偏移;同时也可以在查询结果乘以一个百分比来均衡这个误差,具体差值需要自己人工判断计算。

本软件面向的用户:

1、需要精确百度指数的用户,而不是模糊有延时的百度指数(比如目前市面上的各种seo工具里的百度指数查询工具)。

2、做行业数据分析,研究相关关键词的热度趋势,需要百度历史指数分析的用户。(比如搞大数据分析、金融、股票数据分析等等行业的人员)。

3、如果你只是想大概查一下关键词的指数、不需要精准数值而且是大批量查询,那么这个工具不太适合你,因为是模拟操作,效率是个问题。(当然大批量指数查询工具也已经做好并发布了,斗牛百度指数批量查询工具V5.0版本,请至公开QQ群共享下载。)

软件功能:

1、支持百度指数实时提取功能,可查询近7、30天各个城市的数据,提取数据包括整体搜索指数、PC搜索指数、移动搜索指数、整体同比、整体环比、移动同比、移动环比;

2、百度历史指数可查询指定时间段的百度指数,没有限制,如果查询的天数超过一年,建议你按照1年1年来查询,比如准备查询2011-2013年所有数据,那么软件里应该分别查询2011年、2012年、2013年的数据;(提示:一般情况下,查询的时间范围跨度越小精度越高,所以在最新发布的版本里,添加上自定义循环时间查询功能,可以分多个时间段分别查询,这样查的数据组合起来可以更精确。)

3、为防止软件识别错误,软件自带半人工干预模式,可以自己手动输入坐标柱的底部值、顶部值,输入后点“我已输入”按钮,软件会自动继续执行;

4、支持出现验证码自动气泡提示,手动输入验证码后,软件自动继续执行工作;

5、支持设置各个城市的ID,方便查询不同城市地区的数据;

6、支持停留时间设置:防止网速太卡导致页面未加载完毕导致数据丢失;

7、支持日期时间范围和列表每个关键词的一一对应设置,可一次查询不同关键词的不同时间范围,避免一次只能查询同一时间范围的尴尬。

8、支持对查询的数据进行二次纠正,可以进行加减乘除;

9、支持关键词的批量导入,一键清空;

10、支持查询时间间隔设置,支持数据导出,支持一键复制;软件支持自动更新。

11、可对验证码进行自动ADSL拨号处理,避免人工处理。

备注:软件压缩包里自带全国各个城市的ID数值,如果需要查询某个城市,只需要去查找一下即可。

软件截图:

QQ截图20150206011514

软件界面


QQ截图20150206011546

数据样本

举例1:

我们对上面采集到的数据样本,”百度”一词,2014年1-6个月数据,进行本地excel制图和真实图表对比:

QQ截图20150206021913

采集到的数据趋势图


QQ截图20150206021929

真实的数据趋势图

根据上面2个图表,可以得出结论,采集到数据已经完全展示了数据的变化趋势,可以用来做数据样本,对于大数据分析来说,该样本是可靠的。

经过计算,本次识别的误差率约为2.48%

举例2:演示图:

(举例)以Google一词为关键词,根据记录的数据进行excel绘图,演示如下:

根据软件提取的数据生成的EXCEL趋势图

根据软件提取的数据生成的EXCEL趋势图

我们再来看一下网页的趋势图是怎么样的:如下

Google的百度指数页面趋势图

Google的百度指数页面趋势图

经过计算,本次识别的误差率为2.8%,经过数值均衡后可达更理想状态。

好了,全部介绍到此为止,如有疑问请再看一遍文章,也可以加群,145876858    106983747

如需下载,也请加群!

常见问题:(Q&A)

1、我打开软件提示插件版本错误,怎么办?

Continue Reading

Comments (2)

Tags: , ,

Amazon EC2的V-P-N-PPTP搭建教程(on aws redhat6.5 X64)

Posted on 20 10 月 2014 by simon

前些日子收到amazon的邮件通知,一年前申请的ec2到期了,一年免费的free tier没有了,放在上面的2个站已经欠费了十几美元了,不过我也不打算用了,准备重新注册账号(请不要鄙视我。。)

1、注册开通过程就不详述了,之前的文章已经说过了,这里要说的是:AWS需要填写的信用卡可以用财付通的境外国际账号,(现在好像没有开通渠道了,不过网上有神秘链接可以开通,自己去搜吧,我也忘记是哪个链接了。)然后财付通账号里面需要充值2美元,不是1美元切记,建议往里面充值20元,省得不够AWS的验证扣费会导致验证失败,甚至会反复扣费。如果AWS验证失败,最好先删除AWS里的付款方式后,重新添加信用卡验证,要不然你会发现点“编辑”信用卡账号,点“更新”根本就是没反应的。

当然你也可以直接输入自己的信用卡,验证会比较方便,不过要注意平常使用不要超额,否则会有扣费,具体参考官方说明

2、如果在My Account的控制面板里没有提示付款方式无效,就证明验证通过。

3、之后可能要等20-30分钟后,你才可以建立实例。(让系统有处理时间,不然直接点EC2的面板会提示你付款方式不完善之类信息的。。)

4、然后直接建立实例,我这里选择的是redhat(RHEL-6.5_GA_HVM-20140929-x86_64),一直按着向导下一步即可。

PS:主机环境我使用了WDCP来搭建的,如果你也准备用wdcp来建站,ec2就不要使用Amazon Linux AMI的镜像,否则wdcp里php会无法安装编译。(如果不准备建站,此步可跳过)

5、至此,一年免费主机且无需备案的EC2有了,网速ping大约在80-100左右,还是不错的。


开始搭建VPN-PPTP——how to setup VPN server (pptp on CentOS/RedHat/Ubuntu)

查系统位数 getconfig LONG_BIT,查系统版本 cat /etc/issue ,cat /proc/version,按对应版本下载,ppp/pptp汇总地址

步骤一
如果你的系统是CentOS/RedHat 5:

yum install ppp
cd /usr/local/src
wget http://poptop.sourceforge.net/yum/stable/packages/pptpd-1.4.0-1.rhel5.x86_64.rpm
rpm -Uhv pptpd-1.4.0-1.rhel5.x86_64.rpm

如果你的系统是CentOS/RedHat 6:

yum install ppp
cd /usr/local/src
wget http://poptop.sourceforge.net/yum/stable/packages/pptpd-1.4.0-1.el6.x86_64.rpm
rpm -Uhv pptpd-1.4.0-1.el6.x86_64.rpm

如果你的系统是Ubuntu:

apt-get install pptpd

步骤二:
修改/etc/pptpd.conf

vi /etc/pptpd.conf

localip 192.168.9.1
remoteip 192.168.9.11-30

这上面的IP可以自己定义的,不一定非要这样设置,下面的11-30表示允许连接20个IP

步骤三:
添加账号密码至配置文件

vi /etc/ppp/chap-secrets

格式为:(空格分开,不要引号)
user1 * pwd1 *
user2 * pwd2 *

步骤四:
修改DNS配置

vi /etc/ppp/options.pptpd

ms-dns 8.8.8.8
ms-dns 4.4.4.4

步骤五:

修改/etc/sysctl.conf

vi /etc/sysctl.conf

net.ipv4.ip_forward = 1

应用所有配置

sysctl -p

步骤六:

配置防火墙iptables(这里记得将aws里的1723端口开放,在Security Groups的Inbound开启1723端口,需要开启别的端口的也需要在这里开启。)

iptables -A INPUT -i eth0 -p tcp --dport 1723 -j ACCEPT
iptables -A INPUT -i eth0 -p gre -j ACCEPT
iptables -t nat -A POSTROUTING -o eth0 -j MASQUERADE
iptables -A FORWARD -i ppp+ -o eth0 -j ACCEPT
iptables -A FORWARD -i eth0 -o ppp+ -j ACCEPT
service iptables save
service iptables restart

备注,如果为linode机房,此处重启会提示service iptables restart
Setting chains to policy ACCEPT: security raw nat[FAILED]filter,是因为Linode官方在iptables里加了一个security的规则链,但Centos不支持。

解决方法:vi /etc/init.d/iptables

for i in $tables; do
        echo -n "$i "
        case "$i" in
            raw)
                $IPTABLES -t raw -P PREROUTING $policy \
                    && $IPTABLES -t raw -P OUTPUT $policy \
                    || let ret+=1
                ;;

加入以下内容到“case “$i” in”下面:

security)
        $IPTABLES -t filter -P INPUT $policy \
            && $IPTABLES -t filter -P OUTPUT $policy \
            && $IPTABLES -t filter -P FORWARD $policy \
            || let ret+=1
        ;;

最终效果为:

for i in $tables; do
        echo -n "$i "
        case "$i" in
            security)
                $IPTABLES -t filter -P INPUT $policy \
                    && $IPTABLES -t filter -P OUTPUT $policy \
                    && $IPTABLES -t filter -P FORWARD $policy \
                    || let ret+=1
                ;;
            raw)
                $IPTABLES -t raw -P PREROUTING $policy \
                    && $IPTABLES -t raw -P OUTPUT $policy \
                    || let ret+=1
                ;;

之后重启服务即可。

步骤七:

重启PPTP服务

service pptpd restart

将pptp服务加入到开机自启动

chkconfig pptpd on

如果你的系统是Ubuntu乌班图,重启reboot即可。


如果一切OK的话,专属于你自己的VPN便诞生了。。此时可以通过电脑的网络连接-新建连接VPN输入账号密码即可连接该网络。当然android,IOS,OSX,windows均可通过设置连接该网络。

访问国外站点还是很顺畅的,看youtube视频略有点卡。

 

如图所示:

QQ截图20141020225815

该IP即为remote里的第一个IP

QQ截图20141020225828

总体测试还是很快的,能达到2M带宽。

QQ截图20141020225842

下载速度能够保持在300-400K左右。

Continue Reading

Comments (8)

Tags: ,

谷歌全球IP奉上!

Posted on 13 6 月 2014 by simon

目前谷歌已经被全面封锁了,日常工作中多少还是会受影响的,特别是想找个资料啥的,能急死你。。

现奉上谷歌全球39个地区的ip,其中有些是可以用的,改下hosts。为避免和谐,请自己筛选。。

至于怎么找出有用的ip?可选择页面右侧→_→ http状态码批量查询工具,状态码为0的即表示无法打开。

合理使用工具,同样一件事效率可以相差N倍。。。

————————————start——————————

Bulgaria
93.123.23.1
93.123.23.2
93.123.23.3
93.123.23.4
93.123.23.5
93.123.23.6
93.123.23.7
93.123.23.8
93.123.23.9
93.123.23.10
93.123.23.11
93.123.23.12
93.123.23.13
93.123.23.14
93.123.23.15
93.123.23.16
93.123.23.17
93.123.23.18
93.123.23.19
93.123.23.20
93.123.23.21
93.123.23.22
93.123.23.23
93.123.23.24
93.123.23.25
93.123.23.26
93.123.23.27
93.123.23.28
93.123.23.29
93.123.23.30
93.123.23.31
93.123.23.32
93.123.23.33
93.123.23.34
93.123.23.35
93.123.23.36
93.123.23.37
93.123.23.38
93.123.23.39
93.123.23.40
93.123.23.41
93.123.23.42
93.123.23.43
93.123.23.44
93.123.23.45
93.123.23.46
93.123.23.47
93.123.23.48
93.123.23.49
93.123.23.50
93.123.23.51
93.123.23.52
93.123.23.53
93.123.23.54
93.123.23.55
93.123.23.56
93.123.23.57
93.123.23.58
93.123.23.59
Continue Reading

Comments (0)

Tags: ,

斗牛SEO工具VIP版V11.1已发布 – SEOer的瑞士军刀!

Posted on 17 5 月 2014 by simon

斗牛SEO工具VIP版V11.1发布了 -SEOer的瑞士军刀!

斗牛SEO官网:www.douniu.la 官方售卡系统(全自动发货):http://www.douniu.la/sale.php

斗牛SEO工具

[VIP开通流程]:去官方的售卡系统购买注册卡(目前为三种,季卡、半年卡、年卡),然后下载软件,在软件界面注册开通VIP账号,有疑问可联系客服QQ:604886421

购买VIP后可进入斗牛SEO工具高级群!

公开QQ群:145876858     106983747

写在前面:实行付费功能后,斗牛SEO工具VIP版进入常态化更新,保证一直可用;同时斗牛SEO工具包含的会越来越多,不仅仅是目前的这些工具,会根据作者本人或大家的工作需求等等因素,陆续发布上来,成为VIP后可一直使用,绝对是目前性价比最高的SEO工具。

所有软件全部采用数字签名的方式发布,可以通过右键–属性–数字证书查看到作者信息。如果没有相应信息的,一律为破解版,相应大家能够辨识吧。
工具收费的目的是为了能够让斗牛延续下去,否则实在是没精力更新了,当然收费也是极低的。。。

备注:VIP版即使不付费也可以使用大部分功能,不过查询数量上会有所限制,具体请参照软件说明,VIP则无任何限制。

目前发布的是11个工具,故VIP版本号从11开始。。。

V11.1更新日志:

一、【关键词排名批量查询工具】
升级至V7.1
1、网页访问方式更改为curl
2、添加自动换ip功能,如遇验证码会随机选择一条代理ip
3、添加一词对应一个URL查询模式,即外推专用版,免费用户有查询数量限制
4、改善界面底部的TOP数字长度
5、修复之前6.2版本的bug,及功能改进等等

二、【URL收录批量查询工具】
升级至V4.0
1、网页访问方式更改为curl
2、添加自动换ip功能,如遇验证码会随机选择一条代理ip
3、修复3.2版本的小bug

三、【百度竞价长尾词拓展工具】
升级至V4.0
1、添加长尾词必须包含种子词的功能
2、添加获取结果实时写入到本地文件的功能,尤其适合对大量数据的长时间采集,免费版无此功能。

四、【百度商情长尾词拓展工具】
升级至V3.0
1、添加提取指数功能,获取的长尾词自带指数数据,免费版无此功能。
2、完善获取结果实时写入到本地文件的功能,方便大数据量处理。

五、【爱站关键词工具】
升级至V4.0
1、网页访问方式更改为curl
2、添加自动换ip功能,如遇验证码会随机选择一条代理ip
3、部分功能的优化

六、【中文分词工具NLPIR】
升级至V1.1,免费用户无法使用
分词工具采用NLPIR2014最新版
1、支持对目录级别的所有文件直接批量分词
2、支持批量提取多个文件里的关键词,带权重值输出(此值非TF-IDF,而是交叉熵),包含新词(未登录词)识别等
3、支持分词结果的词性标注,如人名、地名、机构名、数词、时间词等等。
4、支持用户自定义词典,在\dat\userdict.txt里添加

七、【http状态码批量查询工具】
升级至V3.0
1、网页访问方式更改为curl
2、修改内部访问逻辑,提高查询效率,及提升稳定性

八、【PR/SR/BR批量查询工具】
升级至V3.0
1、完善返回数据可能为空的情况

九、【页面URL一键提取器】
升级至V3.1
1、添加常用正则的选择列表,更简单易用

十、【百度SERP标题描述预览工具】
升级至V2.0
1、修复之前版本的失效问题
2、添加了百度SERP结果位置的上下移动功能,可对比竞争对手的预览展示
3、去掉了对谷歌的预览功能,基本无人使用

十一、【文章原创度批量检测工具】
升级至V1.1
1、小幅更新,修复针对单篇文章的检测,当提取字段数为0时,会发生崩溃的现象。

十二、【百度指数批量查询工具】
升级至V4.0
因时间问题,暂未添加上,下个版本加上。

 

Comments (3)

Tags: , , ,

易语言curl支持库与WinHttpRequest、WinInet、互联网支持库http访问对比测试

Posted on 30 4 月 2014 by simon

啥是curl?请百度!

一款很强大的网页访问工具,curl是利用URL语法在命令行方式下工作的开源文件传输工具。它被广泛应用在Unix、多种Linux发行版中,并且有DOS和Win32、Win64下的移植版本。

选择一个适当的网页访问工具,往往是关系到一个软件的速度及稳定性。

测试的工具有:

易语言curl支持库、

http读文件(互联网支持库)、

WinInet方式、

WinHttpRequest 5.1对象方式

测试环境:

为避免网络波动影响测试,故本地搭建了IIS环境,网页大小425KB,为模拟真实页面,页面附加4个js文件,小图片28个,全部网页大小为925KB,全部本地化。

测试方式:

连续循环100次访问页面,测试每次耗费时间,取均值(ms)

易语言curl支持库:

* 93.000000
* 16.000000
* 15.000000
* 15.000000
* 16.000000
* 16.000000
* 15.000000
* 16.000000
* 15.000000
* 47.000000
******

均值:51.5ms、

http读文件:

* 7706.000000
* 312.000000
* 608.000000
* 328.000000
* 15.000000
* 16.000000
* 15.000000
* 302.000000
* 15.000000
******

均值:141.9ms

Continue Reading

Comments (4)

Tags: , ,

斗牛文章原创度检测工具V2.0 -支持单篇、多篇文章的原创度检测,SEO编辑必备工具!

Posted on 30 4 月 2014 by simon

斗牛文章原创度检测工具V2.0 – 支持单篇文章、多篇文章的原创度检测,是编辑人员必备的SEO工具!

本工具主要用来检测文章的原创度,判别标准是:页面正文内随机选择连续的中文字符串在百度搜索结果页的飘红情况,提供飘红次数和飘红度数据,支持数据导出。

批量多URL检测是随机选择页面里一个汉字串进行检测;

而单篇文章检测是对所有汉字串进行检测!飘红度越小原创度越高。

使用步骤:

1、将待检测的文章url地址放置在一个txt文本中,一行一个

2、可直接拖到文件至软件窗口,或者点击浏览按钮选择文件,只支持txt文件

3、开始运行即可。

软件功能:

1、支持多线程操作,线程数量可自己控制,默认10

2、支持查询间隔时间设定,默认500ms

3、支持设置查询百度前几页,默认前3页

4、支持页面随机选择的特征字符串汉字个数的设定,默认为20个汉字,可自己控制阀值。

5、遇验证码自动延时等待、自动恢复。

备注说明:

因为是随机选择页面正文的一段字符串,每次查询的原创度数据会有变化,自己控制好汉字个数。

dnycd-1

dnycd-2
Continue Reading

Comments (2)

Tags: , , ,

斗牛百度长尾词拓展工具V4.0 (多种子词批量提取,斗牛SEO工具系列)

Posted on 03 3 月 2014 by simon

长尾词挖掘一直以来都是很必要且重要的SEO工作之一,有了更多的词意味着我们可以布局更多的关键词,带来更多的相关流量,做过大型网站的话,这一点应该深有体会。对于百度凤巢(竞价)里的大量长尾词推荐是不是苦于一直找不到方式批量提取出来? 好了,这款斗牛百度长尾词拓展工具来解决这个问题。

从本版本开始,该工具已集成至斗牛SEO工具里,请至官网下载:www.douniu.la

软件功能:

1、批量提取百度竞价后台的关键词,支持查询间隔设定

2、支持对全部设备、计算机、移动设备的分别查询,使得数据更精准

3、提取结果包含日均搜索量、展现理由、竞争激烈度、搜索量最高月份、分组等数据

4、支持否定词的设定,即排除词,软件会自动过滤包含否定词的结果

5、支持一键导出为excel文件。

更新日志:

2014年5月15日:
升级至V4.0
1、添加长尾词必须包含种子词的功能
2、添加获取结果实时写入到本地文件的功能,
尤其适合对大量数据的长时间采集,免费版无此功能。

2014年3月22日:
更新至V3.0
1、添加必须包含词,非设定词直接过滤掉
2、优化导出较大数据量到本地的卡顿情况
3、解决登陆窗口里手机验证页面无法输入的情况

2014年3月5日:
更新至v2.0
1、添加自动延迟,自动恢复的功能,可自定义延时时间,默认4分钟。
2、登陆窗口添加滚动条,以防页面出现手机验证而出现无法跳转的情况
3、添加一键清空按钮

2014年3月3日
发布版本v1.2
1、修复页面改版导致的登陆界面显示不全

软件说明:

1、使用这款软件,请确保你有百度推广的账号,如果你没有,请直接去百度官网注册一个,免费注册的。

2、如果有api接口的用户,如果需要对接使用api,请提供接口后,联系作者提供api版本给你。
(api的好处:api的提取速度比较快且稳定,用账号提取的话,可能有时候会被限制,不过如果遇到这种情况,可在查询间隔里设置适合的时间即可,正常都没太大问题的。)

API的申请条件和链接 如下:
http://yingxiao.baidu.com/support/api/detail_4682.html 百度推广API地址
申请条件如下:
a. 累计在百度续费3次以上;
b. 账户累计投入RMB 10万元以上;
c. 账户日均消费RMB 800元以上(数据期为最近1个月);

3、百度推广账号里最好没有词,是空号最好;因为如果账号里有词的话,系统会根据你的词来进行匹配推荐一些词给你,可能造成关键词提取不全的情况。

软件截图:

斗牛百度长尾词拓展工具

斗牛SEO官网:http://www.douniu.la/

下载地址:

最新版V4.0:斗牛百度竞价长尾词拓展工具V4.0

历史版本:V2.0 :http://pan.baidu.com/s/1qWpqRrI

欢迎反馈!

Comments (3)

Tags:

(公告)目前网站在备案期间,访问所有URL在末尾加个?即可继续访问

Posted on 26 2 月 2014 by simon

因网站在备案期间,白天上班时间需关闭一段时间,所有从百度或者google进来的用户,正常访问,在预访问的URL的末尾加个?即可继续访问。

比如 https://sunweiwei.com/1451/?

造成不便,敬请谅解!

(上午7点-下午7点的时间里,网站会自动启用该策略,其它时间正常访问)

Comments (0)

Tags: , , ,

新浪SAE中文分词接口

Posted on 24 1 月 2014 by simon

最近发现新浪SAE平台上竟然也提供分词功能,分词效果也还不错,由新浪爱问提供的分词服务,研究了一番,做了一个简易版的在线调用接口(get方式,非post)

官网说明:http://apidoc.sinaapp.com/class-SaeSegment.htmlSAE分词系统基于隐马模型开发出的汉语分析系統,主要功能包括中文分词、词性标注、命名实体识别、新词识别。

调用规则:http://simonfenci.sinaapp.com/index.php?key=simon&wd={语句}

(返回结果里包含分词词性,随便用个程序语言处理一下就行了,详见:http://apidoc.sinaapp.com/class-SaeSegment.html#POSTAG_ID_UNKNOW

只需要改变URL中的{语句}参数即可(编码为utf-8),因为是get方式传参,语句不能太长;也可以根据官方的api文档,做个简易的post方式。

另推荐几个分词系统:

1、Python的结巴中文分词系统(推荐),demo:http://jiebademo.ap01.aws.af.cm/ ,下载地址:https://github.com/fxsjy/jieba

2、中科院ICTCLAS中文分词系统,支持C/C#/C++/JAVA,32/64都有其对应的版本,有开发能力的可以尝试一下。

3、海量云分词系统demo ,分词效果也不错,可以申请到api接口,官网:http://www.hylanda.com/show_5_19.html

推荐阅读:

Continue Reading

Comments (0)

Tags: , ,

斗牛百度指数批量查询工具V3.3(支持多关键词批量查询、多账号cookies提取功能等等)

Posted on 02 1 月 2014 by simon

最近很多工具的百度指数都无法获取了,百度也变更了请求方式,无论是否更换登录账号,单个ip连续查询一定会遇到查询繁忙的提示(连续查询100多个词的情况下),想要获取更多的数据,不仅要换账号还要换ip,需要代理ip,采集成本变高。

目前斗牛百度指数批量查询工具V3.3已推出,继续免费使用,可查询200个词的百度指数;新版本已添加云数据获取。包含:百度指数、百度搜索量、收录量、优化难度等功能,可加QQ群:145876858 获取解压密码!

公告:2023年1月更新:本工具已全面升级,数据100%精准,可直接到淘宝店铺购买(一年不到100,买不了吃亏买不了上当),→购买入口

——————————更新——————————————

更新日志:
2023年1月更新:
全选版本已升级,请看置顶公告。

2014年2月26日:
更新至V3.3
1、修复关键词中有空格,不能查询的bug
2、添加云数据获取,支持百度指数、百度搜索量、收录量、优化难度等数据
3、支持批量提取,目前限制为200个词,注意设置好查询间隔时间。
4、支持查询过程中,暂停、恢复、停止等操作,便于控制。

2014年2月19日:
1、重写代码,获取的百度指数是该词的周平均值。
2、支持自动识别验证码,不过准确率测试中。
3、目前为beta测试版,下个版本计划添加上云数据读取,不再从本地获取数据。

2014年1月9日:
百度更改加密算法,此版本暂不可用,请等待下次版本更新,
已注册用户注册码依然有效。

开发手记:这个工具开发可谓非常纠结。。。刚开始是百度的加密算法,然后是验证码问题,好不容易做了OCR字库,能够自动识别验证码了,可单个账号连续查询还是会遇到“查询繁忙的提示”,无奈只能放弃验证码识别方式;之后添加了多账号登陆功能,然后顺便做了个百度账号的cookies批量采集工具,最后是各种异常情况的判断、以及各个细节的优化、添加注册码验证机制、自动检测更新机制等等工作,搞了有3-4天了,累死。。。软件并没有采用多线程,因为发现数据查询速度在可接受范围内,也不是太慢,如果太快了,我怕封号速度也太快了(目前未发现有封号现象,只是隔一段时间不能查询)。。

目前经过测试,一个账号连续查询几十个词左右会出验证码,软件会自动识别验证码并提交,且会换cookies,账号最好多添加几个,这样就能连续查询了,账号越多越安全。如果你发现软件在不停的换cookies,说明你的cookies太少了,不够用,要添加多些。百度账号可以淘宝购买,1元几十个吧,注意买那些已经验证过邮箱的账号,别买了一堆未验证的账号,这些号是登陆不了的(我试验过了)

软件特色:

1、数据源来自百度官方指数,支持多关键词批量获取

2、目前支持200个关键词的查询,另账号cookies最好自己多准备几个,可通过软件里的获取器来提取cookies。

3、支持多账号cookies批量采集功能,软件会轮换使用cookies:即当一个账号采集失败时,会自动换下一个号采集,总体是循环使用的,所以需要账号越多越好,cookies越多,采集越多。轮换逻辑是1→2→3→n→1→2→3→n的节奏。。

4、软件操作简单,运行软件前,请先保证同目录下的cookies.txt文件中有cookies,下载包里提供了5个cookies,你用自己的号来提取吧。

软件截图:

百度指数批量查询工具

多账号cookies批量提取器:(操作很简单)

操作说明:(导入账号请不要少于3个号,否则导入失败。。。)

1、先导入预先准备好的账号密码,一行一个号,格式为:账号XXX—-密码XXX,中间分隔符可以自己定义,软件里可设置

2、点击“开始提取”,批量登录账号并采集cookies,如果登录异常比较多,请增加提取的时间间隔,毕竟百度也是有限制的,慢点提取,这个可以挂机采的,几十个号一会儿就采集完了。

3、之后导出cookies ,软件会自动过滤无效的cookies,只保存有效的,到本地cookies.txt文件中

Continue Reading

Comments (12)

斗牛SEO工具