文档章节

word v1.3 发布,Java 分布式中文分词组件

杨尚川
 杨尚川
发布于 2015/08/29 09:53
字数 389
阅读 956
收藏 9

word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词频统计、词性标注、同义标注、反义标注、拼音标注等功能。提供了10种分词算法,还提供了10种文本相似度算法,同时还无缝和Lucene、Solr、ElasticSearch、Luke集成。

word1.3新增了大量功能,如:词频统计、refine、词性标注、同义标注、反义标注、拼音标注等,同时,新增了10种文本相似度算法,还新增了两种分词算法:最大Ngram分值算法和最少词数算法,分词速度也有了很大提升,还有很多其他的大大小小的优化,最后还支持当前最新的lucene5.2.1、solr5.2.1和elasticsearch2.0.0-beta1。

 

更多细节请查看:word分词主页

word分词的分词效果怎么样?请看:Java开源项目cws_evaluation:中文分词器分词效果评估


© 著作权归作者所有

杨尚川

杨尚川

粉丝 1101
博文 220
码字总数 1624053
作品 12
东城
架构师
私信 提问
加载中

评论(8)

hwanji
hwanji
可以添加搜狗词典么
hwanji
hwanji
已经解决,需要包 pinyin4j
hwanji
hwanji
是 V1.3版
hwanji
hwanji
你好:
运行拼音时错误。

下面是你给的例子:
List<Word> words = WordSegmenter.segWithStopWords("《速度与激情7》的中国内地票房自4月12日上映以来,在短短两周内突破20亿人民币");
PinyinTagging.process(words);
System.out.println(words);

下面是错误信息:
14:38:21.322 [main] DEBUG o.a.w.s.impl.MaxNgramScore - 【END(-900714.5)<-人民币】  
14:38:21.322 [main] DEBUG o.a.word.recognition.PersonName - 人名识别:[在, 短短, 两周, 内, 突破, 20亿, 人民币]
Exception in thread "main" java.lang.NoClassDefFoundError: net/sourceforge/pinyin4j/format/HanyuPinyinOutputFormat
  at org.apdplat.word.tagging.PinyinTagging.getPinYin(PinyinTagging.java:62)
  at org.apdplat.word.tagging.PinyinTagging.getFullPinYin(PinyinTagging.java:58)
  at org.apdplat.word.tagging.PinyinTagging.process(PinyinTagging.java:48)
  at WordChineseNLPUtil.pinyin(WordChineseNLPUtil.java:63)
  at WordChineseNLPUtil.main(WordChineseNLPUtil.java:31)
  at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
  at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
  at sun.refl
hwanji
hwanji
1) 你有机器翻译的api,开源的翻译库吗?
2) 后续会开发文分分类和聚类,情感分析,模块吗?
谢谢
一一叶
一一叶

引用来自“红薯”的评论

版本更新要投递新闻:)

要是有一个自动的,该多好啊
杨尚川
杨尚川 博主

引用来自“红薯”的评论

版本更新要投递新闻:)
投了
红薯
红薯
版本更新要投递新闻:)
给LUKE增加word分词器

word分词是一个Java实现的分布式中文分词组件 1、下载http://luke.googlecode.com/files/lukeall-4.0.0-ALPHA.jar(国内不能访问) 2、下载并解压Java中文分词组件word-1.0-bin.zip 3、将解压...

杨尚川
2015/04/07
652
0
word v1.3 发布,Java 分布式中文分词组件

word 分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名...

杨尚川
2015/08/29
4.6K
0
Java中文分词组件 - word分词

Java分布式中文分词组件 - word分词 word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数...

杨尚川
2014/04/29
25K
56
Java分布式中文分词组件word分词v1.2发布

word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名...

杨尚川
2015/04/11
5.9K
5
word v1.3.1 发布,Java 分布式中文分词组件

word 分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名...

杨尚川
2015/10/05
2.1K
9

没有更多内容

加载失败,请刷新页面

加载更多

OSChina 周日乱弹 —— 别问,问就是没空

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @tom_tdhzz :#今日歌曲推荐# 分享容祖儿/彭羚的单曲《心淡》: 《心淡》- 容祖儿/彭羚 手机党少年们想听歌,请使劲儿戳(这里) @wqp0010 :周...

小小编辑
今天
246
5
golang微服务框架go-micro 入门笔记2.1 micro工具之micro api

micro api micro 功能非常强大,本文将详细阐述micro api 命令行的功能 重要的事情说3次 本文全部代码https://idea.techidea8.com/open/idea.shtml?id=6 本文全部代码https://idea.techidea8....

非正式解决方案
今天
5
0
Spring Context 你真的懂了吗

今天介绍一下大家常见的一个单词 context 应该怎么去理解,正确的理解它有助于我们学习 spring 以及计算机系统中的其他知识。 1. context 是什么 我们经常在编程中见到 context 这个单词,当...

Java知其所以然
昨天
5
0
Spring Boot + Mybatis-Plus 集成与使用(二)

前言: 本章节介绍MyBatis-Puls的CRUD使用。在开始之前,先简单讲解下上章节关于Spring Boot是如何自动配置MyBatis-Plus。 一、自动配置 当Spring Boot应用从主方法main()启动后,首先加载S...

伴学编程
昨天
8
0
用最通俗的方法讲spring [一] ──── AOP

@[TOC](用最通俗的方法讲spring [一] ──── AOP) 写这个系列的目的(可以跳过不看) 自己写这个系列的目的,是因为自己是个比较笨的人,我曾一度怀疑自己的智商不适合干编程这个行业.因为在我...

小贼贼子
昨天
8
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部