加载中
中文分词算法 之 基于词典的正向最小匹配算法

正向最小匹配算法,和正向最大匹配算法相得益彰,一个强调细粒度,一个强调粗粒度

中文分词算法 之 基于词典的逆向最大匹配算法

实验表明:对于汉语来说,逆向最大匹配算法比(正向)最大匹配算法更有效。在大规模文本分析中,如何提高分词算法的性能呢?

word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

word分词在千万字级(2837 4490字)超大规模人工标注语料库中分词完美率为:55.352688%。测试结果表明,bigram消歧效果良好,完美率提升10%。

一种利用ngram模型来消除歧义的中文分词方法

一种利用ngram模型来消除歧义的中文分词方法

中文分词算法 之 词典机制性能优化与测试

中文分词的速度能有多快?120万字符/秒。词典机制的优化很重要,且看慢慢道来......

计算OSCHINA博文在百度的收录与排名情况

计算OSCHINA博文在百度的收录与排名情况

2015/04/03 16:49
446
计算ITEYE博文在百度的收录与排名情况

计算ITEYE博文在百度的收录与排名情况

2015/04/04 04:00
175
中文分词算法 之 基于词典的逆向最小匹配算法

逆向最小匹配算法,和逆向最大匹配算法相得益彰,一个强调细粒度,一个强调粗粒度

中文分词算法 之 基于词典的正向最大匹配算法

基于词典的正向最大匹配算法,算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典。随着词典越来越大,算法的时空复杂性怎么权衡呢?

我的ITEYE和OSCHINA博客的异同(截止2015年5月17日)

我的ITEYE和OSCHINA博客的异同

2015/04/03 05:17
340
一种通用的网页相似度检测算法

如果我们需要在海量的结构未知的网页库中找到和指定的网页相似度比较高的一些网页,我们该怎么办呢?本文提出的“一种通用的网页相似度检测算法”就是专门解决这个问题。

ITEYE博文抄袭检查

比如我写了一篇文章:“使用Java8实现自己的个性化搜索引擎”,我想知道有哪些网站转载了我的文章,我该怎么办呢?

2000个软件开发领域的高频特殊词及精选例句(六)

2000个软件开发领域的高频特殊词及精选例句

2015/03/20 23:38
147
OSCHINA博文抄袭检查

比如我写了一篇文章:“使用Java8实现自己的个性化搜索引擎”,我想知道有哪些网站转载了我的文章,我该怎么办呢?

2000个软件开发领域的高频特殊词及精选例句(三)

2000个软件开发领域的高频特殊词及精选例句

2015/03/20 23:05
132
192本软件著作用词分析(三)

192本软件著作用词分析

2015/03/27 05:40
52
2000个软件开发领域的高频特殊词及精选例句(七)

2000个软件开发领域的高频特殊词及精选例句

2015/03/20 23:43
156
2000个软件开发领域的高频特殊词及精选例句(二)

2000个软件开发领域的高频特殊词及精选例句

2015/03/19 22:23
803
2000个软件开发领域的高频特殊词及精选例句(五)

2000个软件开发领域的高频特殊词及精选例句

2015/03/20 23:31
127

没有更多内容

加载失败,请刷新页面

返回顶部
顶部