斗牛NLPIR中文分词工具V1.1已发布,本分词工具采用NLPIR2014最新版。可直接对文件夹里所有文件自动分词,提取关键词(包括对未登录词的识别),支持词性标注及自定义词典。
软件特色:
1、支持对目录级别的所有文件直接批量分词
2、支持批量提取多个文件里的关键词,带权重值输出(此值非TF-IDF,而是交叉熵),包含新词(未登录词)识别等
3、支持分词结果的词性标注,如人名、地名、机构名、数词、时间词等等。
4、支持用户自定义词典,在\dat\userdict.txt里添加
使用方法:
1、将待分词的文本都放入到一个文件夹中
2、直接拖动文件夹至软件窗口或浏览到对应目录
3、点开始运行或提词。
温馨提示:待分词的文本编码需为ANSI,否则可能会出现乱码的情况。可用notepad++打开后,右下角状态栏提示编码。
软件截图:
软件下载: www.douniu.la 已集成至斗牛SEO工具中!
文档信息
- 版权声明:自由转载-非商用-非衍生-保持署名 | Creative Commons BY-NC-ND 3.0
- 原文网址: https://sunweiwei.com/1819/
- 最后修改时间: 2014年05月19日 21:42:58
2 3 月, 2015 at 下午 4:52
一直在这里学习了不少知识,支持支持,希望越搞越好。 也支持我一下: http://www.hk-seo.com/
9 10 月, 2015 at 下午 3:15
非常实用的工具!
10 10 月, 2015 at 下午 2:00
写得很好的文章,谢谢楼主的分享