加载中
利用word分词通过计算词的语境来获得相关词

利用word分词通过计算词的语境来获得相关词

word v1.3 发布,Java 分布式中文分词组件

word v1.3 发布,Java 分布式中文分词组件

一种通用的网页相似度检测算法

如果我们需要在海量的结构未知的网页库中找到和指定的网页相似度比较高的一些网页,我们该怎么办呢?本文提出的“一种通用的网页相似度检测算法”就是专门解决这个问题。

基于word分词提供的文本相似度算法来实现通用的网页相似度检测

基于word分词提供的文本相似度算法来实现通用的网页相似度检测

网络爬虫面临的挑战 之 链接构造

爬虫与反爬虫就好像是安全领域的破解与反破解一样,相互矛盾,相互克制,同时也相互促进。

一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法

本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法,对于其他的用户生成内容站点类型也具有同样的适用性。

superword开源项目中的定义相似规则

superword开源项目中的定义相似规则

2000个软件开发领域的高频特殊词及精选例句(六)

2000个软件开发领域的高频特殊词及精选例句

2015/03/20 23:38
147
运行nutch提示:0 records selected for fetching, exiting

运行nutch提示:0 records selected for fetching, exiting

中文分词算法 之 基于词典的正向最小匹配算法

正向最小匹配算法,和正向最大匹配算法相得益彰,一个强调细粒度,一个强调粗粒度

中文分词算法 之 基于词典的逆向最小匹配算法

逆向最小匹配算法,和逆向最大匹配算法相得益彰,一个强调细粒度,一个强调粗粒度

word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

word分词在千万字级(2837 4490字)超大规模人工标注语料库中分词完美率为:55.352688%。测试结果表明,bigram消歧效果良好,完美率提升10%。

没有更多内容

加载失败,请刷新页面

返回顶部
顶部