中文分词算法 之 基于词典的正向最大匹配算法

基于词典的正向最大匹配算法,算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典。随着词典越来越大,算法的时空复杂性怎么权衡呢?

Nutch的发展历程

Nutch的发展历程

2015/04/08 06:54
564
一种通用的网页相似度检测算法

如果我们需要在海量的结构未知的网页库中找到和指定的网页相似度比较高的一些网页,我们该怎么办呢?本文提出的“一种通用的网页相似度检测算法”就是专门解决这个问题。

网络爬虫面临的挑战 之 链接构造

爬虫与反爬虫就好像是安全领域的破解与反破解一样,相互矛盾,相互克制,同时也相互促进。

OSCHINA博文抄袭检查

比如我写了一篇文章:“使用Java8实现自己的个性化搜索引擎”,我想知道有哪些网站转载了我的文章,我该怎么办呢?

基于word分词提供的文本相似度算法来实现通用的网页相似度检测

基于word分词提供的文本相似度算法来实现通用的网页相似度检测

ITEYE博文抄袭检查

比如我写了一篇文章:“使用Java8实现自己的个性化搜索引擎”,我想知道有哪些网站转载了我的文章,我该怎么办呢?

分析在各大考纲词汇中同时拥有前缀后缀和词根的词(五)

CET4、CET6、GRE、IELTS、TOEFL、考研英语总的词汇量为14055,有11544个单词含有词根信息,有5526个单词含有前缀信息,有9525个单词含有后缀信息。那么有多少个单词同时拥有前缀后缀和词根呢...

2015/03/27 04:13
93
分析996个词根在各大考纲词汇中的作用(三)

CET4、CET6、GRE、IELTS、TOEFL、考研英语总的词汇量为14055,分析词根总数为996,有11544个单词分布在这些词根中,剩下的2511个词汇没有任何词根信息。

2015/03/26 07:48
245
分析996个词根在各大考纲词汇中的作用(五)总结精选篇

CET4、CET6、GRE、IELTS、TOEFL、考研英语总的词汇量为14055,分析词根总数为996,有11544个单词分布在这些词根中,剩下的2511个词汇没有任何词根信息。本文精选5206个跟词根结合最紧密的单词...

2015/03/26 09:20
490
986组同义词辨析

192本软件著作用词分析

2015/03/28 00:10
433

没有更多内容

加载失败,请刷新页面