Tag Archive | "2014"

Tags: , , ,

斗牛NLPIR中文分词工具V1.1 – 支持目录级文件的批量分词、新词识别

Posted on 19 5月 2014 by simon

斗牛NLPIR中文分词工具V1.1已发布,本分词工具采用NLPIR2014最新版。可直接对文件夹里所有文件自动分词,提取关键词(包括对未登录词的识别),支持词性标注及自定义词典。

软件特色:

1、支持对目录级别的所有文件直接批量分词

2、支持批量提取多个文件里的关键词,带权重值输出(此值非TF-IDF,而是交叉熵),包含新词(未登录词)识别等

3、支持分词结果的词性标注,如人名、地名、机构名、数词、时间词等等。

4、支持用户自定义词典,在\dat\userdict.txt里添加

使用方法:

1、将待分词的文本都放入到一个文件夹中

2、直接拖动文件夹至软件窗口或浏览到对应目录

3、点开始运行或提词。

温馨提示:待分词的文本编码需为ANSI,否则可能会出现乱码的情况。可用notepad++打开后,右下角状态栏提示编码。

软件截图:

 

斗牛中文分词工具

 

软件下载: www.douniu.la 已集成至斗牛SEO工具中!

 

Comments (3)

斗牛SEO工具