中文分词算法 之 词典机制性能优化与测试

中文分词的速度能有多快?120万字符/秒。词典机制的优化很重要,且看慢慢道来......

word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

word分词在千万字级(2837 4490字)超大规模人工标注语料库中分词完美率为:55.352688%。测试结果表明,bigram消歧效果良好,完美率提升10%。

中文分词算法 之 基于词典的正向最大匹配算法

基于词典的正向最大匹配算法,算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典。随着词典越来越大,算法的时空复杂性怎么权衡呢?

中文分词算法 之 基于词典的逆向最大匹配算法

实验表明:对于汉语来说,逆向最大匹配算法比(正向)最大匹配算法更有效。在大规模文本分析中,如何提高分词算法的性能呢?

配置Cygwin支持无密码SSH登陆

配置Cygwin支持无密码SSH登陆

2015/04/07 19:41
1K
1208个合成词

CET4、CET6、GRE、IELTS、TOEFL、考研英语总的词汇量为14055,在这些词中,有1208个合成词。合成词也称复合词,顾名思义,就是由两个或两个以上的词合在一起构成的词。只要掌握了合成词的组成...

2015/03/30 17:42
743
七大自然语言处理领域的世界一流公司

七大自然语言处理领域的世界一流公司

2015/05/25 15:43
3.2K
Java开源项目cws_evaluation:中文分词器分词效果评估

想知道最常用的9大Java中文分词是哪些吗? 想凑凑热闹看看分词效果大PK吗?

分析151个后缀在各大考纲词汇中的作用(三)总结精选篇

CET4、CET6、GRE、IELTS、TOEFL、考研英语总的词汇量为14055,分析后缀数为151,有9588个单词分布在这些后缀中,剩下的4467个词汇没有任何后缀信息。本文精选1637个跟前缀结合最紧密的单词。...

2015/03/26 22:45
207
数据生成器

data-generator是一个Java实现的数据生成器开源项目。 如果你在从事大数据BI的工作,想对比一下MySQL、GreenPlum、Elasticsearch、Hive、Presto、Impala、Drill、HAWQ、Druid、Pinot、Kylin...

2018/04/29 23:12
918
对Nutch2.1抽象存储层的一些看法

对Nutch2.1抽象存储层的一些看法

电影功夫熊猫使用的单词分析

电影功夫熊猫使用的单词分析

2015/11/15 21:44
1K
Cygwin运行nutch报错:Failed to set permissions of path

Cygwin运行nutch报错:Failed to set permissions of path

2015/04/07 03:04
177
微服务管理平台如何防止开发人员的本地环境污染注册中心

微服务的代码由两部分构成,一部分是根据模型定义自动生成的,这部分代码不可修改,另外一部分代码是留给开发人员实现业务逻辑的,可以修改。 防止开发人员的本地环境污染注册中心最开始的解...

2018/09/12 22:57
631

没有更多内容

加载失败,请刷新页面