文档章节

jcseg歧义句子分词测试

狮子的魂
 狮子的魂
发布于 2013/06/05 13:56
字数 454
阅读 936
收藏 0

今天在晚上看到一些网友测试分词器常用的起义语句, 我拿jcseg去试了下: 

1. 结婚的和尚未结婚的
jcseg分词: 
结婚 的 和 尚未 结婚 的
Done, total:10, split:6, cost: 0.00026sec

2. 他说的确实在理
jcseg分词:
他 说 的 确实 在理
Done, total:7, split:5, cost: 0.00052sec


3. 把手抬起来
jcseg分词:
把手 抬起 来
Done, total:5, split:3, cost: 0.00000sec

4. 邓颖超生前使用过的物品 
jcseg分词:
邓颖超 生前 使用 过 的 物品
Done, total:11, split:6, cost: 0.00000sec

5. 阿拉斯加遭强暴风雪袭击致xx人死亡
jcseg分词:
阿拉斯加 遭 强暴 风雪 袭击 致 xx 人 死亡
Done, total:17, split:9, cost: 0.00052sec


6. 今后三年中将翻两番
jcseg分词:
今后 三年 中将 翻两番
Done, total:9, split:4, cost: 0.00000sec

7. 乒乓球拍卖完了
jcseg分词:
乒乓球 拍卖 完了
Done, total:7, split:3, cost: 0.00000sec

8. 粮食不卖给八路军
jcseg分词:
粮食 不 卖给 八路军
Done, total:8, split:4, cost: 0.00105sec

9. 费孝通向人大常委会提交书面报告
jcseg分词:
费孝通 向 人大常委会 提交 书面报告
Done, total:15, split:5, cost: 0.00105sec

10. 梁启超生前住在这里
jcseg分词:
梁启超 生前 住在 这里
Done, total:9, split:4, cost: 0.00000sec

11. 吴江西陵印刷厂
jcseg分词:
吴江 西陵 印刷厂
Done, total:7, split:3, cost: 0.00000sec

12. 叔叔亲了我妈妈也亲了我
jcseg分词:
叔叔 亲了 我 妈妈 也 亲了 我

Done, total:11, split:7, cost: 0.00000sec

机械匹配方法, 上面有些句子似乎很难得到正确的切分.

这些都是其他分词器切分结果不是很好的句子, jcseg的切分效果确实有些优势.

© 著作权归作者所有

共有 人打赏支持
狮子的魂

狮子的魂

粉丝 205
博文 11
码字总数 11922
作品 7
深圳
CEO
私信 提问
加载中

评论(2)

狮子的魂
狮子的魂

引用来自“暴暴牛”的评论

牛逼,顶一个,不过速度好像很慢啊

慢??? 我的老土的台式机器上面测试的速度是30W/s, 而且是基于文件流切分的,你看到的是第一次吧。。。
暴暴牛
暴暴牛
牛逼,顶一个,不过速度好像很慢啊
狮子的魂/jcseg

Jcseg是什么? Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直...

狮子的魂
2013/11/16
0
0
Java 开源中文分词器--Jcseg

Jcseg 是什么? Jcseg 是基于 mmseg 算法的一个轻量级开源中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了最新版本的 lucene, solr, elasti...

狮子的魂
2012/10/19
35.8K
29
Jcseg-1.9.7 发布 - Restful API+文章自动摘要/关键字/短语/句子提取

Jcseg是基于mmseg算法的一个轻量级开源中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了最新版本的lucene, solr, elasticsearch的分词接口,...

狮子的魂
2015/12/09
2.7K
8
Hanlp等七种优秀的开源中文分词库推荐

中文分词是中文文本处理的基础步骤,也是中文人机自然语言交互的基础模块。由于中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词。 纵观整个开源领域,陆陆续续做...

左手的倒影
2018/10/12
0
0
[转]与Lucene 4.10配合的中文分词比较(标准详细的比较)

本文转自: http://www.hansight.com/blog-lucene4.10-with-chinese-segment.html 感谢原作者。 比较目的 衡量每种分词的指标,内存消耗、CPU消耗,得到一个在Lucene中比较好的分词版本。 分...

狮子的魂
2015/01/18
7.8K
7

没有更多内容

加载失败,请刷新页面

加载更多

Android Messenger进程间客户端向服务端传递数据

Messenger:客户端向服务端传递数据 1.Service: public class MessengerService extends Service { private Messenger messenger = new Messenger(new Handler() { public void handleMess......

Coding缘
1分钟前
0
0
Pod在多可用区worker节点上的高可用部署

一、 需求分析 当前kubernetes集群中的worker节点可以支持添加多可用区中的ECS,这种部署方式的目的是可以让一个应用的多个pod(至少两个)能够分布在不同的可用区,起码不能分布在同一个可用...

zhaowei121
19分钟前
0
0
oracle XTTS介绍

一、什么是XTTS 首先什么是XTTS。XTTS其实是从TTS来的,TTS其实也是传输数据的一种手段,传输数据的时候可能用过EXP的方式,再往后可能用数据泵导入导出一些数据,或者去做备份然后再恢复。其...

突突突酱
20分钟前
0
0
[缺陷分析]半同步下多从库复制异常

引 言 本文是由爱可生研发团队出品的「图解MySQL」系列文章,不定期更新,但篇篇精品。 爱可生开源社区持续运营维护的小目标: 每周至少推送一篇高质量技术文章 每月研发团队发布开源组件新版...

爱可生
20分钟前
0
0
二维数组序号重置

public static function unique_arr($array2D,$stkeep=false,$ndformat=true){ // 判断是否保留一级数组键 (一级数组键可以为非数字) if($stkeep) $stArr = array_keys($array2D); // 判断是......

dragon_tech
23分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部