word v1.3 发布,Java 分布式中文分词组件

word 分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名...

杨尚川
2015/08/29
4.6K
0
11大Java开源中文分词器的使用方法和分词效果对比

本文的目标有两个: 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那...

杨尚川
2015/05/10
31.4K
18
Lucene的中文分词器IKAnalyzer

分词器对英文的支持是非常好的。 一般分词经过的流程: 1)切分关键词 2)去除停用词 3)把英文单词转为小写 但是老外写的分词器对中文分词一般都是单字分词,分词的效果不好。 国人林良益写...

王国龙_成长
2013/02/05
1K
3
杨尚川/cws_evaluation

中文分词器分词效果评估对比 捐赠致谢 使用说明: 如何建立开发环境? 如果是使用Netbeans、IDEA,则直接打开项目如果是使用Eclipse、MyEclipse,则要执行导入操作推荐使用IDEA 评估采用的测...

杨尚川
2015/03/25
0
0
【PDF分享】IKAnalyzer中文分词器V3.2.3使用手册.pdf

IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已 经推出 了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词...

红薯
2010/09/13
940
0

没有更多内容

加载失败,请刷新页面

加载更多