Posted on 24 1 月 2014 by simon
最近发现新浪SAE平台上竟然也提供分词功能,分词效果也还不错,由新浪爱问提供的分词服务,研究了一番,做了一个简易版的在线调用接口(get方式,非post)
官网说明:http://apidoc.sinaapp.com/class-SaeSegment.html,SAE分词系统基于隐马模型开发出的汉语分析系統,主要功能包括中文分词、词性标注、命名实体识别、新词识别。
调用规则:http://simonfenci.sinaapp.com/index.php?key=simon&wd={语句}
(返回结果里包含分词词性,随便用个程序语言处理一下就行了,详见:http://apidoc.sinaapp.com/class-SaeSegment.html#POSTAG_ID_UNKNOW)
只需要改变URL中的{语句}参数即可(编码为utf-8),因为是get方式传参,语句不能太长;也可以根据官方的api文档,做个简易的post方式。
另推荐几个分词系统:
1、Python的结巴中文分词系统(推荐),demo:http://jiebademo.ap01.aws.af.cm/ ,下载地址:https://github.com/fxsjy/jieba
2、中科院ICTCLAS中文分词系统,支持C/C#/C++/JAVA,32/64都有其对应的版本,有开发能力的可以尝试一下。
3、海量云分词系统demo ,分词效果也不错,可以申请到api接口,官网:http://www.hylanda.com/show_5_19.html
推荐阅读:
Continue Reading
Posted on 02 1 月 2014 by simon
最近很多工具的百度指数都无法获取了,百度也变更了请求方式,无论是否更换登录账号,单个ip连续查询一定会遇到查询繁忙的提示(连续查询100多个词的情况下),想要获取更多的数据,不仅要换账号还要换ip,需要代理ip,采集成本变高。
目前斗牛百度指数批量查询工具V3.3已推出,继续免费使用,可查询200个词的百度指数;新版本已添加云数据获取。包含:百度指数、百度搜索量、收录量、优化难度等功能,可加QQ群:145876858 获取解压密码!
公告:2023年1月更新:本工具已全面升级,数据100%精准,可直接到淘宝店铺购买(一年不到100,买不了吃亏买不了上当),→购买入口
——————————更新——————————————
更新日志:
2023年1月更新:
全选版本已升级,请看置顶公告。
2014年2月26日:
更新至V3.3
1、修复关键词中有空格,不能查询的bug
2、添加云数据获取,支持百度指数、百度搜索量、收录量、优化难度等数据
3、支持批量提取,目前限制为200个词,注意设置好查询间隔时间。
4、支持查询过程中,暂停、恢复、停止等操作,便于控制。
2014年2月19日:
1、重写代码,获取的百度指数是该词的周平均值。
2、支持自动识别验证码,不过准确率测试中。
3、目前为beta测试版,下个版本计划添加上云数据读取,不再从本地获取数据。
2014年1月9日:
百度更改加密算法,此版本暂不可用,请等待下次版本更新,
已注册用户注册码依然有效。
开发手记:这个工具开发可谓非常纠结。。。刚开始是百度的加密算法,然后是验证码问题,好不容易做了OCR字库,能够自动识别验证码了,可单个账号连续查询还是会遇到“查询繁忙的提示”,无奈只能放弃验证码识别方式;之后添加了多账号登陆功能,然后顺便做了个百度账号的cookies批量采集工具,最后是各种异常情况的判断、以及各个细节的优化、添加注册码验证机制、自动检测更新机制等等工作,搞了有3-4天了,累死。。。软件并没有采用多线程,因为发现数据查询速度在可接受范围内,也不是太慢,如果太快了,我怕封号速度也太快了(目前未发现有封号现象,只是隔一段时间不能查询)。。
目前经过测试,一个账号连续查询几十个词左右会出验证码,软件会自动识别验证码并提交,且会换cookies,账号最好多添加几个,这样就能连续查询了,账号越多越安全。如果你发现软件在不停的换cookies,说明你的cookies太少了,不够用,要添加多些。百度账号可以淘宝购买,1元几十个吧,注意买那些已经验证过邮箱的账号,别买了一堆未验证的账号,这些号是登陆不了的(我试验过了)
软件特色:
1、数据源来自百度官方指数,支持多关键词批量获取
2、目前支持200个关键词的查询,另账号cookies最好自己多准备几个,可通过软件里的获取器来提取cookies。
3、支持多账号cookies批量采集功能,软件会轮换使用cookies:即当一个账号采集失败时,会自动换下一个号采集,总体是循环使用的,所以需要账号越多越好,cookies越多,采集越多。轮换逻辑是1→2→3→n→1→2→3→n的节奏。。
4、软件操作简单,运行软件前,请先保证同目录下的cookies.txt文件中有cookies,下载包里提供了5个cookies,你用自己的号来提取吧。
软件截图:

多账号cookies批量提取器:(操作很简单)
操作说明:(导入账号请不要少于3个号,否则导入失败。。。)
1、先导入预先准备好的账号密码,一行一个号,格式为:账号XXX—-密码XXX,中间分隔符可以自己定义,软件里可设置
2、点击“开始提取”,批量登录账号并采集cookies,如果登录异常比较多,请增加提取的时间间隔,毕竟百度也是有限制的,慢点提取,这个可以挂机采的,几十个号一会儿就采集完了。
3、之后导出cookies ,软件会自动过滤无效的cookies,只保存有效的,到本地cookies.txt文件中
Continue Reading
Posted on 26 12 月 2013 by simon
此款长尾词拓展工具数据来自百度商情数据接口,每个词最多可以拓展出200个长尾词,作为平时的长尾词工具补充还是非常不错的,推荐使用。
从本版本开始,该工具已集成至斗牛SEO工具里,请至官网下载:www.douniu.la。
更新日志:
2014年5月15日:
升级至V3.0
1、添加提取指数功能,获取的长尾词自带指数数据,免费版无此功能。
2、完善获取结果实时写入到本地文件的功能,方便大数据量处理。
2014年3月25日:
升级至V2.1
1、修复部分关键词无法提取的bug
2014年3月23日:
升级至V2.0
1、添加自动导入本地的功能,大数据量提取专用
2、添加进度条显示及其它优化
2014年2月24日:
升级至V1.2
1、修复查询时有几率崩溃的现象,此问题是模块引起的,现已修复。
2、查询结果为空时,不会写入到编辑框里,更简洁。
2013年12月26日:
1、修复一次性添加大量数据,可能引起的预处理崩溃问题。
2、支持万级量的数据查询处理。
软件特色:
1、数据源来自百度官方的百度商情接口
2、支持不限数量关键词的添加,可达万级数据量的处理
3、支持地区选择匹配数据,可查询各个城市的长尾词分布情况
4、本软件无任何限制,免费使用
软件截图:

操作说明:
只需要填入相应母词列表,即可获取相应长尾词,简单、快捷!
软件下载: Continue Reading
Posted on 04 11 月 2013 by simon
这个工具是升级斗牛百度收录批量查询工具V2.0的时候,顺带着做的,只是为了方便查指定规则的URL收录情况,这款工具已经集成到收录查询工具V2.0里了,现在单独提出来,方便大家使用。
此工具的作用?比如,我有一个10页的新闻列表页面,我想查找前5页的新闻页面URL,对于其中的新闻页面URL获取一直都比较麻烦,要么手工导出URL,要么用火车头之类的采集工具,不过火车头这类的工具,有点太过庞杂,操作不太方便。
这款工具正好解决了这个问题,如果再结合斗牛百度收录批量查询工具,这样很容易对比某个时间段的收录情况、收录率等数据。
从本版本开始,该工具已集成至斗牛SEO工具里,请至官网下载:www.douniu.la。
更新日志:
2014年5月15日:
升级至V3.1
1、添加常用正则的选择列表,更简单易用
2014年3月24日:
1、添加百度等真实url的获取
2、修复某些相对路径url不能被获取的情况,完全依靠正则来输出url结果
3、可自定义批量替换结果中的字符串
4、只要是页面里面有的链接都能被提取
2014年3月4日:
1、添加采集完成自动保存到本地的功能,以及提醒功能
2014年2月24日:
1、支持批量页面url采集,从此告别复制粘贴的重复操作。
2、支持页面的等差范围选择,比如第1页,11页,21页,类似采集方式。
3、修复部分网站不能采集的问题
2013年11月9日:
1、修复相对路径的URL未被提取的情况,此问题已完美解决,感谢“无名”反馈。
2、修复“官网反馈”的链接错误。
软件特色:
1、支持自定义正则提取URL
2、支持多页面URL提取(自定义页码范围)
3、自动去除重复URL、支持一键复制、清空
4、支持查询间隔设置
等等。。
软件截图:

软件下载:斗牛页面URL一键提取器V3.1
历史版本:斗牛页面URL一键提取器V3.0
Posted on 22 10 月 2013 by simon
SEO工作中不可避免的要设置页面的title标题、description描述等等,很多时候会考虑字数的问题,如何写才会在搜索引擎结果页面上显示完整?此类纠结的问题,就让这个工具来解决吧!
SERP标题描述预览工具发布了,支持“百度、谷歌”,目前只支持这2个;至于360搜索、搜狗什么的,以后可能添加上,也可能不添加了,因为没有需求。。。

工具很简单,看下界面就知道怎么操作了,所以不用过多说明。(ps:如喜欢使用网页版工具的,可参考道哥的版本)
更新日志:
2014年5月15日:
升级至V2.0
1、修复之前版本的失效问题
2、添加了百度SERP结果位置的上下移动功能,可对比竞争对手的预览展示
3、去掉了对谷歌的预览功能,基本无人使用
2013年12月1日:
更新至V1.2
1、修复一个描述文字显示bug,感谢“笨鸟”反馈。
2013年11月7日:
更新至V1.1
1、修正一处网页提示脚本错误。
2013年10月22日:
1、发布版本1.0
软件特色:
1、工具里内置网页预览,完全实时预览你的标题和描述写法,一键生成,一目了然。
2、搜索词可自定义,查看不同页面效果。
3、可将title预览插入到任意排名位置,感受一下自己的写法和竞争对手的写法,孰优孰劣。
4、支持查询结果飘红(即包含搜索词的部分,文字颜色为红色),和真实结果同步。
5、特殊字符的处理,如果标题里包含“!”、“,” 全角字符,会被自动处理为半角字符,符合搜索引擎处理方式。
6、支持生成代码,一键复制你的meta信息。
7、软件完全免费,无任何限制,采用客户端软件形式,非网页版,软件大小:很小,948K,不需要安装.net或者框架什么的,直接打开就可使用,只支持win系列平台。
8、软件基本很少需要更新,即时获取的。
提示:百度很稳定;用google网页预览的时候,因谷歌网站服务器不太稳定,有时候软件会假死,卡住15秒左右,等等就正常了。或者关了重新打开软件。
软件截图:

下载地址: Continue Reading
Posted on 12 10 月 2013 by simon
最近抽空制作了5款seo的工具(见页面右侧)
1、百度排名批量查询工具(多站点多关键词查询分析竞争对手,数量不限,批量多线程);2、百度收录批量查询工具(数量不限,批量多线程) ;3、谷歌PR批量查询工具(数量不限,批量快速) ;4、HTTP状态码批量查询工具(独家提供跳转情况反馈);5、爱站关键词采集工具(多种自定义,批量,延时,着陆页提示)、爱站长尾词挖掘工具(多种自定义,批量,延时,多线程)。
总体开发较为顺利,只有做爱站关键词工具耽搁了点时间,各个工具基本都有其相应的特色功能,因为工具的使命除了解决问题,还是解决问题。不管用什么语言写出来,能解决问题就好。
seoer日常工作中常常要使用到各种工具,查排名、查收录、查PR、查状态码、查抓取量、查日志、查友链、查外链、查死链、查竞争度、查词密度、查html标签、查加载速度、查抓取压力等等各种数据,总体算下来几十种因素是跑不了的,因为seo本身就是要从多因素综合考虑问题的一项工作;不管平时提交什么seo优化方案,至少都是建立在你对这个站点的相关数据都充分了解的前提下完成,所以数据获取非常重要,工具也很重要。
很多时候,我们也会因为没有相关更好的辅助工具而导致工作进展较慢,幸好网上有一些实用的在线工具,比如站长之家、爱站的等等,基本能解决日常工作的70%工具需要。对于中小站点还好,如果站点结构大型些、复杂些,这些工具往往会力不从心,因为在线工具的设计理念就是:“简单、快捷、不需太专业”,所以也导致了大型互联网公司们纷纷自己开发自己适配的seo工具,如果公司技术较给力,这些都不是问题。。。
当然如果公司不给搞拍耽误项目进度或排期靠后,又或者技术不给力,自己又非常需求的话,作为我们seo从业者,是不是应该考虑逐步学着制作相关工具出来。程序语言不会没有关系,起码要先认识到这点,现在网络这么发达,学习知识已经是个非常容易的事了,关键看你是否愿意学。
不知道大家最近是否看到一则IT相关的公益广告,微软创始人比尔-盖茨、Facebook创始人扎克伯格、Twitter创始人杰克-多西、Dropbox创始人休斯顿、以及打篮球的热火明星前锋克里斯-波什等等诸多IT届大佬一起,呼吁美国人学习编程,讲述了在这互联网时代,每个IT人士学习编程的 Continue Reading
Posted on 08 10 月 2013 by simon
给力工具:斗牛(原Simon)爱站关键词采集工具|爱站长尾词挖掘工具综合版V4.0已发布!(无任何限制,完全免费),备注:转载请注明出处。
//斗牛爱站关键词采集工具|爱站长尾词挖掘工具综合版V4.0包含:爱站关键词的采集工具、爱站长尾词的挖掘工具,可完全自定义采集并挖掘你的词库,支持多站点多关键词,查询结果数据导出,爱站网站登陆,着陆页URL查询,查询间隔设置等等,更多功能等你来发现。。
(PS:如果采集的时候软件不稳定,出错的话,请将查询间隔调整长一点,我自己电脑设置5秒,可以一直挂机采着,你的电脑根据情况来设置;)
提示:最好先登陆站点再操作,要不然查询深度或查询数量会有限制,具体请参考爱站官方说明。激活会员后,好像就没限制了。
2014年5月15日:
更新日志:
升级至V4.0
1、更改网页访问方式
2、换ip功能,免费用户无此功能
3、部分功能的优化
2014年2月15日:
更新至V3.0
1、【更换软件之前的采集方式,对用户电脑IE版本无任何要求】
2、提升软件稳定性,提取效率提升3倍
3、软件更名为“斗牛”系列
4、跟随网站更新,添加pc端,移动端数据
2014年1月3日:
更新至V2.0
1、修复爱站网站改版导致的失效问题,且优化部分软件交互,更换软件皮肤
2、添加采集排序,分别为“排名在前”、“来访数目”、“指数大小”与网站同步
3、软件的文件名请不要重命名,否则打开会直接关闭的
2013年10月8日:
1、v1.0版本发布
界面截图:


下载地址:
网盘地址:斗牛爱站关键词工具V4.0
历史版本:斗牛爱站关键词工具V3.0
(解压密码见群共享,QQ群号:145876858)
有任何问题,欢迎反馈!
Posted on 03 10 月 2013 by simon
国庆福利一枚:HTTP状态码批量查询工具(支持多级转向查询,多线程,全网首发URL跳转次数、跳转情况查询、首次/最终着陆页查询),一分钟查询上千url不是问题,而且软件体积比较小,只有800K。
这工具之前就做好了,一直没有放出来,趁着节日有空就完善了一下发出来了,给大家多个工具选择吧。
版本3.0已发布:
软件特色:
1、软件完全免费,无任何功能限制,采用多线程技术,线程数量不限,可自己选择或写入数值;url的数量不限,1分钟查询上千url没问题。
2、强势功能:支持查询URL的首次着陆页、最终着陆页、URL的http状态码、URL的跳转情况、URL的跳转次数,列表显示,一目了然,全网独家提供。
3、支持设置查询间隔,单位为ms
4、查询结果可导出成csv表格,方便处理。
5、提交的url可带上http://也可不带上,软件自动处理。
6、支持对当前url右键打开。
更新日志:
2014年5月15日:
升级至V3.0
1、网页访问方式更改为curl
2、修改内部访问逻辑,提高查询效率,及提升稳定性
3、修复有时候必须开着窗口才能继续运行的bug
2013年10月18日:
版本2.0发布
1、添加支持URL的最终着陆页查询
2、修复特殊情况下首次URL的着陆页查询问题
2013年10月03日:
1、版本1.0发布
至于为什么要做这个HTTP状态码查询工具?
1、网络上能够批量查询URL的http状态码工具虽然不多,但还是能找到的,但那些工具提供的信息很有限,大型站点的URL一般比较复杂,部分url可能有多次跳转的情况,比如一个url的http状态码很可能是302→ 301→200、或301→301→301→200等等这样的一个过程,可我们并不知道,我们知道这种多次跳转后的URL是不被搜索引擎抓取的,国平也曾提过,蜘蛛对多次重定向后的url是不抓取的,so,这一信息获取就显得比较重要。市面上却没有这样的查询工具,url的跳转次数根本没有记录,跳转情况也无从获取,so,这款软件就出来了…
2、市面上适合大型站点url查询且支持多线程操作的软件很少,反正我没找到好用的..
最新版软件下载:我要下载V3.0
历史版本:我要下载V2.0
软件截图:

Posted on 29 9 月 2013 by simon
继之前的2个工具:百度排名批量查询工具、百度收录批量查询工具,最近也做了这个PR批量查询工具,本软件可批量查询网站的权重值,包括PR、SR、百度权重等等指数,欢迎使用,完全免费!
更新日志:
2014年5月15日:
升级至V3.0
1、完善返回数据可能为空的情况
2014年3月30日:
1、修复pr查询失败的bug
2、修复部分返回数据为空或n的bug
2014年1月24日:
1、升级至V2.1,修复单独导出SR值出现的csv文件格式错乱。
2014年1月23日:
1、添加查询搜狗SR值
2、添加查询爱站百度权重
3、添加查询站长工具百度权重
2013年12月26日:
1、修复一次性大量提交数据,预处理会产生崩溃的现象。
感谢“榜上有名®”提供测试数据.
经过测试,一次性提交了7万的数据,软件不会崩溃。
2013年12月23日
1、修复查询时候没有返回值,会沿袭上个PR值的,导致查询不准确的情况,
此问题已彻底解决,很抱歉,刚发现。。。
2、添加了查询异常的判断
3、添加个清空列表按钮
2013年09月29日
1、首发版本发布
软件功能:
1、批量查询PR,可设置查询间隔,PR查询接口采用google原生api查询接口,保证精确性。
2、URL可带上http://,也可不带,软件是自动识别的,如下图。
3、软件并没有采用多线程,因为如果用多线程,google封IP的概率较高,而且本身查询速度已经够快,所以就没有采用多线程了。
4、提取URL可以使用斗牛页面URL一键提取器快速导出你URL。
下载地址:我要下载v3.0
历史版本:我要下载v2.2

Posted on 29 9 月 2013 by simon
今天抽空做了这个Web页面兼容性测试工具,因为有时候需要页面测试,很难记得去哪个网站登陆再提交url测试,所以就做了一个工具形式,用来测试一些新产品上线可能带来的bug错位等等蛋疼的问题。。
软件原理非常简单,只是调用了个国外的网站页面,操作都在页面里面,我只是添加了个一键注册的功能(邮箱啥的都是随机生成),其它软件功能就没有了。。。
每次点击一键注册后,网站会提供30分钟的测试时间,一般是够用了。
网站还是比较强大的,提供win xp、win7、win8、OS、IOS、android、opera mobile多种平台;IE 6、7、8、9、10、11、firefox、safari、chrome、opera多浏览器版本以及多种页面分辨率的组合测试,相当强大。

下载地址:我要下载
Continue Reading