斗牛NLPIR中文分词工具V1.1已发布,本分词工具采用NLPIR2014最新版。可直接对文件夹里所有文件自动分词,提取关键词(包括对未登录词的识别),支持词性标注及自定义词典。
软件特色:
1、支持对目录级别的所有文件直接批量分词
2、支持批量提取多个文件里的关键词,带权重值输出(此值非TF-IDF,而是交叉熵),包含新词(未登录词)识别等
3、支持分词结果的词性标注,如人名、地名、机构名、数词、时间词等等。
4、支持用户自定义词典,在\dat\userdict.txt里添加
使用方法:
1、将待分词的文本都放入到一个文件夹中
2、直接拖动文件夹至软件窗口或浏览到对应目录
3、点开始运行或提词。
温馨提示:待分词的文本编码需为ANSI,否则可能会出现乱码的情况。可用notepad++打开后,右下角状态栏提示编码。
软件截图:
软件下载: www.douniu.la 已集成至斗牛SEO工具中!