word v1.3 发布,Java 分布式中文分词组件

原创
2015/08/29 09:53
阅读数 2.3K

word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词频统计、词性标注、同义标注、反义标注、拼音标注等功能。提供了10种分词算法,还提供了10种文本相似度算法,同时还无缝和Lucene、Solr、ElasticSearch、Luke集成。

word1.3新增了大量功能,如:词频统计、refine、词性标注、同义标注、反义标注、拼音标注等,同时,新增了10种文本相似度算法,还新增了两种分词算法:最大Ngram分值算法和最少词数算法,分词速度也有了很大提升,还有很多其他的大大小小的优化,最后还支持当前最新的lucene5.2.1、solr5.2.1和elasticsearch2.0.0-beta1。

 

更多细节请查看:word分词主页

word分词的分词效果怎么样?请看:Java开源项目cws_evaluation:中文分词器分词效果评估


展开阅读全文
打赏
2
9 收藏
分享
加载中
如何能在分词的时候指定保留某个分隔符呀
02/29 21:32
回复
举报
可以添加搜狗词典么
2015/09/18 15:58
回复
举报
已经解决,需要包 pinyin4j
2015/09/18 15:29
回复
举报
是 V1.3版
2015/09/18 14:40
回复
举报
你好:
运行拼音时错误。

下面是你给的例子:
List<Word> words = WordSegmenter.segWithStopWords("《速度与激情7》的中国内地票房自4月12日上映以来,在短短两周内突破20亿人民币");
PinyinTagging.process(words);
System.out.println(words);

下面是错误信息:
14:38:21.322 [main] DEBUG o.a.w.s.impl.MaxNgramScore - 【END(-900714.5)<-人民币】  
14:38:21.322 [main] DEBUG o.a.word.recognition.PersonName - 人名识别:[在, 短短, 两周, 内, 突破, 20亿, 人民币]
Exception in thread "main" java.lang.NoClassDefFoundError: net/sourceforge/pinyin4j/format/HanyuPinyinOutputFormat
  at org.apdplat.word.tagging.PinyinTagging.getPinYin(PinyinTagging.java:62)
  at org.apdplat.word.tagging.PinyinTagging.getFullPinYin(PinyinTagging.java:58)
  at org.apdplat.word.tagging.PinyinTagging.process(PinyinTagging.java:48)
  at WordChineseNLPUtil.pinyin(WordChineseNLPUtil.java:63)
  at WordChineseNLPUtil.main(WordChineseNLPUtil.java:31)
  at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
  at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
  at sun.refl
2015/09/18 14:39
回复
举报
1) 你有机器翻译的api,开源的翻译库吗?
2) 后续会开发文分分类和聚类,情感分析,模块吗?
谢谢
2015/09/18 13:59
回复
举报

引用来自“红薯”的评论

版本更新要投递新闻:)

要是有一个自动的,该多好啊
2015/08/31 00:36
回复
举报
杨尚川博主

引用来自“红薯”的评论

版本更新要投递新闻:)
投了
2015/08/29 21:30
回复
举报
版本更新要投递新闻:)
2015/08/29 16:28
回复
举报
更多评论
打赏
9 评论
9 收藏
2
分享
返回顶部
顶部