斗牛NLPIR中文分词工具V1.1 – 支持目录级文件的批量分词、新词识别

发布于 2014年05月19日 更新于 2014年05月19日 

斗牛NLPIR中文分词工具V1.1已发布,本分词工具采用NLPIR2014最新版。可直接对文件夹里所有文件自动分词,提取关键词(包括对未登录词的识别),支持词性标注及自定义词典。

软件特色:

1、支持对目录级别的所有文件直接批量分词

2、支持批量提取多个文件里的关键词,带权重值输出(此值非TF-IDF,而是交叉熵),包含新词(未登录词)识别等

3、支持分词结果的词性标注,如人名、地名、机构名、数词、时间词等等。

4、支持用户自定义词典,在\dat\userdict.txt里添加

使用方法:

1、将待分词的文本都放入到一个文件夹中

2、直接拖动文件夹至软件窗口或浏览到对应目录

3、点开始运行或提词。

温馨提示:待分词的文本编码需为ANSI,否则可能会出现乱码的情况。可用notepad++打开后,右下角状态栏提示编码。

软件截图:

 

斗牛中文分词工具

 

软件下载: www.douniu.la 已集成至斗牛SEO工具中!

 

看了此文的人貌似还看了这些:

  • 百度指数历史数据批量提取查询导出工具(2023年)已更新,支持各省份、城市、PC、移动端数据采集! 2014-10-24
  • 斗牛SEO工具VIP版V11.1已发布 – SEOer的瑞士军刀! 2014-05-17
  • 新浪SAE中文分词接口 2014-01-24
  • 斗牛爱站关键词采集/长尾词挖掘工具V4.0发布!(支持多站点,多关键词批量获取) 2013-10-08
  • 斗牛百度指数批量查询工具V3.3(支持多关键词批量查询、多账号cookies提取功能等等) 2014-01-02
  • NLPIR/ICTCLAS2014中科院分词系统Api接口 For 易语言 2014-04-09
  • 斗牛文章原创度检测工具V2.0 -支持单篇、多篇文章的原创度检测,SEO编辑必备工具! 2014-04-30
  • 斗牛爱站关键词采集/长尾词挖掘工具V4.0发布!(支持多站点,多关键词批量获取) 2013-10-08
  • 斗牛http状态码批量查询工具 V3.0(支持多级查询,全网首发URL跳转次数、跳转情况查询、首次/最终着陆页查询) 2013-10-03
  • 斗牛百度长尾词拓展工具V4.0 (多种子词批量提取,斗牛SEO工具系列) 2014-03-03
  • 3 Comments For This Post

    1. seo Says:

      一直在这里学习了不少知识,支持支持,希望越搞越好。 也支持我一下: http://www.hk-seo.com/

    2. apexdesign Says:

      非常实用的工具!

    3. Thecapital.com.hk Says:

      写得很好的文章,谢谢楼主的分享

    发表评论

    Time limit is exhausted. Please reload CAPTCHA.

       我相信你,不会发广告!

    斗牛SEO工具