Posted on 24 1 月 2014 by simon
最近发现新浪SAE平台上竟然也提供分词功能,分词效果也还不错,由新浪爱问提供的分词服务,研究了一番,做了一个简易版的在线调用接口(get方式,非post)
官网说明:http://apidoc.sinaapp.com/class-SaeSegment.html,SAE分词系统基于隐马模型开发出的汉语分析系統,主要功能包括中文分词、词性标注、命名实体识别、新词识别。
调用规则:http://simonfenci.sinaapp.com/index.php?key=simon&wd={语句}
(返回结果里包含分词词性,随便用个程序语言处理一下就行了,详见:http://apidoc.sinaapp.com/class-SaeSegment.html#POSTAG_ID_UNKNOW)
只需要改变URL中的{语句}参数即可(编码为utf-8),因为是get方式传参,语句不能太长;也可以根据官方的api文档,做个简易的post方式。
另推荐几个分词系统:
1、Python的结巴中文分词系统(推荐),demo:http://jiebademo.ap01.aws.af.cm/ ,下载地址:https://github.com/fxsjy/jieba
2、中科院ICTCLAS中文分词系统,支持C/C#/C++/JAVA,32/64都有其对应的版本,有开发能力的可以尝试一下。
3、海量云分词系统demo ,分词效果也不错,可以申请到api接口,官网:http://www.hylanda.com/show_5_19.html
推荐阅读:
Continue Reading
Posted on 02 1 月 2014 by simon
最近很多工具的百度指数都无法获取了,百度也变更了请求方式,无论是否更换登录账号,单个ip连续查询一定会遇到查询繁忙的提示(连续查询100多个词的情况下),想要获取更多的数据,不仅要换账号还要换ip,需要代理ip,采集成本变高。
目前斗牛百度指数批量查询工具V3.3已推出,继续免费使用,可查询200个词的百度指数;新版本已添加云数据获取。包含:百度指数、百度搜索量、收录量、优化难度等功能,可加QQ群:145876858 获取解压密码!
公告:2023年1月更新:本工具已全面升级,数据100%精准,可直接到淘宝店铺购买(一年不到100,买不了吃亏买不了上当),→购买入口
——————————更新——————————————
更新日志:
2023年1月更新:
全选版本已升级,请看置顶公告。
2014年2月26日:
更新至V3.3
1、修复关键词中有空格,不能查询的bug
2、添加云数据获取,支持百度指数、百度搜索量、收录量、优化难度等数据
3、支持批量提取,目前限制为200个词,注意设置好查询间隔时间。
4、支持查询过程中,暂停、恢复、停止等操作,便于控制。
2014年2月19日:
1、重写代码,获取的百度指数是该词的周平均值。
2、支持自动识别验证码,不过准确率测试中。
3、目前为beta测试版,下个版本计划添加上云数据读取,不再从本地获取数据。
2014年1月9日:
百度更改加密算法,此版本暂不可用,请等待下次版本更新,
已注册用户注册码依然有效。
开发手记:这个工具开发可谓非常纠结。。。刚开始是百度的加密算法,然后是验证码问题,好不容易做了OCR字库,能够自动识别验证码了,可单个账号连续查询还是会遇到“查询繁忙的提示”,无奈只能放弃验证码识别方式;之后添加了多账号登陆功能,然后顺便做了个百度账号的cookies批量采集工具,最后是各种异常情况的判断、以及各个细节的优化、添加注册码验证机制、自动检测更新机制等等工作,搞了有3-4天了,累死。。。软件并没有采用多线程,因为发现数据查询速度在可接受范围内,也不是太慢,如果太快了,我怕封号速度也太快了(目前未发现有封号现象,只是隔一段时间不能查询)。。
目前经过测试,一个账号连续查询几十个词左右会出验证码,软件会自动识别验证码并提交,且会换cookies,账号最好多添加几个,这样就能连续查询了,账号越多越安全。如果你发现软件在不停的换cookies,说明你的cookies太少了,不够用,要添加多些。百度账号可以淘宝购买,1元几十个吧,注意买那些已经验证过邮箱的账号,别买了一堆未验证的账号,这些号是登陆不了的(我试验过了)
软件特色:
1、数据源来自百度官方指数,支持多关键词批量获取
2、目前支持200个关键词的查询,另账号cookies最好自己多准备几个,可通过软件里的获取器来提取cookies。
3、支持多账号cookies批量采集功能,软件会轮换使用cookies:即当一个账号采集失败时,会自动换下一个号采集,总体是循环使用的,所以需要账号越多越好,cookies越多,采集越多。轮换逻辑是1→2→3→n→1→2→3→n的节奏。。
4、软件操作简单,运行软件前,请先保证同目录下的cookies.txt文件中有cookies,下载包里提供了5个cookies,你用自己的号来提取吧。
软件截图:
多账号cookies批量提取器:(操作很简单)
操作说明:(导入账号请不要少于3个号,否则导入失败。。。)
1、先导入预先准备好的账号密码,一行一个号,格式为:账号XXX—-密码XXX,中间分隔符可以自己定义,软件里可设置
2、点击“开始提取”,批量登录账号并采集cookies,如果登录异常比较多,请增加提取的时间间隔,毕竟百度也是有限制的,慢点提取,这个可以挂机采的,几十个号一会儿就采集完了。
3、之后导出cookies ,软件会自动过滤无效的cookies,只保存有效的,到本地cookies.txt文件中
Continue Reading