Archive | 5 月, 2014

Tags: , ,

线程中使用正则表达式cpu占用100%解决方案

Posted on 29 5 月 2014 by simon

如果线程中使用了正则表达式,程序运行中发现cpu占用率达到100%,电脑基本处于卡死的状态,基本上可以判断为正则表达式无法与目标数据匹配,正则表达式的写法有问题,程序会一直处于匹配中,这时候软件并不会出错,而是表现为cpu占用率100%。。。

正则表达式

调试此类问题步骤:

1、因为当cpu占用率100%时,基本无法调试了,电脑非常卡,必须降cpu。可以设置程序的cpu亲和性,绑定某一个cpu内核(现在大部分电脑都是双核以上机器了吧);或者直接在任务管理器里–找到程序进程名–右击–设置相关性–绑定某一个内核即可,这样cpu占用率最高也不会超过内核数的几分之一。

2、然后使用单线程调试,多线程也可,不过数据要归好类,对采样的数据进行正则匹配测试,可以在notepad++中测试正则写法,或者一些在线测试工具也可。 Continue Reading

Comments (0)

Tags: , , ,

斗牛NLPIR中文分词工具V1.1 – 支持目录级文件的批量分词、新词识别

Posted on 19 5 月 2014 by simon

斗牛NLPIR中文分词工具V1.1已发布,本分词工具采用NLPIR2014最新版。可直接对文件夹里所有文件自动分词,提取关键词(包括对未登录词的识别),支持词性标注及自定义词典。

软件特色:

1、支持对目录级别的所有文件直接批量分词

2、支持批量提取多个文件里的关键词,带权重值输出(此值非TF-IDF,而是交叉熵),包含新词(未登录词)识别等

3、支持分词结果的词性标注,如人名、地名、机构名、数词、时间词等等。

4、支持用户自定义词典,在\dat\userdict.txt里添加

使用方法:

1、将待分词的文本都放入到一个文件夹中

2、直接拖动文件夹至软件窗口或浏览到对应目录

3、点开始运行或提词。

温馨提示:待分词的文本编码需为ANSI,否则可能会出现乱码的情况。可用notepad++打开后,右下角状态栏提示编码。

软件截图:

 

斗牛中文分词工具

 

软件下载: www.douniu.la 已集成至斗牛SEO工具中!

 

Comments (3)

Tags: ,

斗牛SEO工具VIP版V11.1已发布 – SEOer的瑞士军刀!

Posted on 17 5 月 2014 by simon

斗牛SEO工具VIP版V11.1发布了 -SEOer的瑞士军刀!

斗牛SEO官网:www.douniu.la 官方售卡系统(全自动发货):http://www.douniu.la/sale.php

斗牛SEO工具

[VIP开通流程]:去官方的售卡系统购买注册卡(目前为三种,季卡、半年卡、年卡),然后下载软件,在软件界面注册开通VIP账号,有疑问可联系客服QQ:604886421

购买VIP后可进入斗牛SEO工具高级群!

公开QQ群:145876858     106983747

写在前面:实行付费功能后,斗牛SEO工具VIP版进入常态化更新,保证一直可用;同时斗牛SEO工具包含的会越来越多,不仅仅是目前的这些工具,会根据作者本人或大家的工作需求等等因素,陆续发布上来,成为VIP后可一直使用,绝对是目前性价比最高的SEO工具。

所有软件全部采用数字签名的方式发布,可以通过右键–属性–数字证书查看到作者信息。如果没有相应信息的,一律为破解版,相应大家能够辨识吧。
工具收费的目的是为了能够让斗牛延续下去,否则实在是没精力更新了,当然收费也是极低的。。。

备注:VIP版即使不付费也可以使用大部分功能,不过查询数量上会有所限制,具体请参照软件说明,VIP则无任何限制。

目前发布的是11个工具,故VIP版本号从11开始。。。

V11.1更新日志:

一、【关键词排名批量查询工具】
升级至V7.1
1、网页访问方式更改为curl
2、添加自动换ip功能,如遇验证码会随机选择一条代理ip
3、添加一词对应一个URL查询模式,即外推专用版,免费用户有查询数量限制
4、改善界面底部的TOP数字长度
5、修复之前6.2版本的bug,及功能改进等等

二、【URL收录批量查询工具】
升级至V4.0
1、网页访问方式更改为curl
2、添加自动换ip功能,如遇验证码会随机选择一条代理ip
3、修复3.2版本的小bug

三、【百度竞价长尾词拓展工具】
升级至V4.0
1、添加长尾词必须包含种子词的功能
2、添加获取结果实时写入到本地文件的功能,尤其适合对大量数据的长时间采集,免费版无此功能。

四、【百度商情长尾词拓展工具】
升级至V3.0
1、添加提取指数功能,获取的长尾词自带指数数据,免费版无此功能。
2、完善获取结果实时写入到本地文件的功能,方便大数据量处理。

五、【爱站关键词工具】
升级至V4.0
1、网页访问方式更改为curl
2、添加自动换ip功能,如遇验证码会随机选择一条代理ip
3、部分功能的优化

六、【中文分词工具NLPIR】
升级至V1.1,免费用户无法使用
分词工具采用NLPIR2014最新版
1、支持对目录级别的所有文件直接批量分词
2、支持批量提取多个文件里的关键词,带权重值输出(此值非TF-IDF,而是交叉熵),包含新词(未登录词)识别等
3、支持分词结果的词性标注,如人名、地名、机构名、数词、时间词等等。
4、支持用户自定义词典,在\dat\userdict.txt里添加

七、【http状态码批量查询工具】
升级至V3.0
1、网页访问方式更改为curl
2、修改内部访问逻辑,提高查询效率,及提升稳定性

八、【PR/SR/BR批量查询工具】
升级至V3.0
1、完善返回数据可能为空的情况

九、【页面URL一键提取器】
升级至V3.1
1、添加常用正则的选择列表,更简单易用

十、【百度SERP标题描述预览工具】
升级至V2.0
1、修复之前版本的失效问题
2、添加了百度SERP结果位置的上下移动功能,可对比竞争对手的预览展示
3、去掉了对谷歌的预览功能,基本无人使用

十一、【文章原创度批量检测工具】
升级至V1.1
1、小幅更新,修复针对单篇文章的检测,当提取字段数为0时,会发生崩溃的现象。

十二、【百度指数批量查询工具】
升级至V4.0
因时间问题,暂未添加上,下个版本加上。

 

Comments (3)

斗牛SEO工具