加载中
中文分词算法 之 基于词典的逆向最大匹配算法

实验表明:对于汉语来说,逆向最大匹配算法比(正向)最大匹配算法更有效。在大规模文本分析中,如何提高分词算法的性能呢?

中文分词算法 之 基于词典的正向最大匹配算法

基于词典的正向最大匹配算法,算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典。随着词典越来越大,算法的时空复杂性怎么权衡呢?

Amazon Dynamo的NWR模型

Amazon Dynamo的NWR模型,把CAP的选择权交给了用户,让用户自己选择CAP中的哪两个。

Hadoop分布式文件系统HDFS和OpenStack对象存储系统Swift有何不同?

Hadoop分布式文件系统HDFS和OpenStack对象存储系统Swift的异同

对Nutch2.1抽象存储层的一些看法

对Nutch2.1抽象存储层的一些看法

中文分词算法 之 词典机制性能优化与测试

中文分词的速度能有多快?120万字符/秒。词典机制的优化很重要,且看慢慢道来......

APDPlat中业务日志和监控日志的设计与实现

APDPlat提供了业务日志和监控日志,以便对用户操作进行审计、对系统性能进行调优。 业务日志主要包括数据的增删改日志、备份恢复日志以及用户登录注销日志。监控日志主要包括用户请求响应时间...

搜索引擎的分片(shard)和副本(replica)机制

搜索引擎通过分片(shard)和副本(replica)实现了高性能、高伸缩和高可用。

word v1.3 发布,Java 分布式中文分词组件

word v1.3 发布,Java 分布式中文分词组件

一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法

本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法,对于其他的用户生成内容站点类型也具有同样的适用性。

我的ITEYE和OSCHINA博客的异同(截止2015年5月17日)

我的ITEYE和OSCHINA博客的异同

2015/04/03 05:17
340
如何选择使用字符串还是数字呢?

如何选择使用字符串还是数字呢?

2015/08/31 16:17
5.9K
基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式...

Java分布式中文分词组件word分词v1.2发布

Java分布式中文分词组件word分词v1.2发布

没有更多内容

加载失败,请刷新页面

返回顶部
顶部