加载中
中文分词算法 之 基于词典的正向最大匹配算法

基于词典的正向最大匹配算法,算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典。随着词典越来越大,算法的时空复杂性怎么权衡呢?

中文分词算法 之 基于词典的逆向最大匹配算法

实验表明:对于汉语来说,逆向最大匹配算法比(正向)最大匹配算法更有效。在大规模文本分析中,如何提高分词算法的性能呢?

中文分词算法 之 词典机制性能优化与测试

中文分词的速度能有多快?120万字符/秒。词典机制的优化很重要,且看慢慢道来......

对Nutch2.1抽象存储层的一些看法

对Nutch2.1抽象存储层的一些看法

一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法

本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法,对于其他的用户生成内容站点类型也具有同样的适用性。

APDPlat中业务日志和监控日志的设计与实现

APDPlat提供了业务日志和监控日志,以便对用户操作进行审计、对系统性能进行调优。 业务日志主要包括数据的增删改日志、备份恢复日志以及用户登录注销日志。监控日志主要包括用户请求响应时间...

Hadoop分布式文件系统HDFS和OpenStack对象存储系统Swift有何不同?

Hadoop分布式文件系统HDFS和OpenStack对象存储系统Swift的异同

一种使用随机抽样梯度下降算法来预估词汇量的方法

一种使用随机抽样梯度下降算法来预估词汇量的方法

搜索引擎的分片(shard)和副本(replica)机制

搜索引擎通过分片(shard)和副本(replica)实现了高性能、高伸缩和高可用。

Amazon Dynamo的NWR模型

Amazon Dynamo的NWR模型,把CAP的选择权交给了用户,让用户自己选择CAP中的哪两个。

word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

word分词在千万字级(2837 4490字)超大规模人工标注语料库中分词完美率为:55.352688%。测试结果表明,bigram消歧效果良好,完美率提升10%。

配置Cygwin支持无密码SSH登陆

配置Cygwin支持无密码SSH登陆

2015/04/07 19:41
1K
Java开源项目cws_evaluation:中文分词器分词效果评估

想知道最常用的9大Java中文分词是哪些吗? 想凑凑热闹看看分词效果大PK吗?

数据生成器

data-generator是一个Java实现的数据生成器开源项目。 如果你在从事大数据BI的工作,想对比一下MySQL、GreenPlum、Elasticsearch、Hive、Presto、Impala、Drill、HAWQ、Druid、Pinot、Kylin...

2018/04/29 23:12
797

没有更多内容

加载失败,请刷新页面

返回顶部
顶部