加载中
一种通用的网页相似度检测算法

如果我们需要在海量的结构未知的网页库中找到和指定的网页相似度比较高的一些网页,我们该怎么办呢?本文提出的“一种通用的网页相似度检测算法”就是专门解决这个问题。

基于word分词提供的文本相似度算法来实现通用的网页相似度检测

基于word分词提供的文本相似度算法来实现通用的网页相似度检测

superword开源项目中的定义相似规则

superword开源项目中的定义相似规则

中文分词算法 之 基于词典的正向最小匹配算法

正向最小匹配算法,和正向最大匹配算法相得益彰,一个强调细粒度,一个强调粗粒度

中文分词算法 之 基于词典的逆向最小匹配算法

逆向最小匹配算法,和逆向最大匹配算法相得益彰,一个强调细粒度,一个强调粗粒度

中文分词算法 之 基于词典的全切分算法

中文分词算法 之 基于词典的全切分算法

中文分词算法 之 基于词典的逆向最大匹配算法

实验表明:对于汉语来说,逆向最大匹配算法比(正向)最大匹配算法更有效。在大规模文本分析中,如何提高分词算法的性能呢?

中文分词算法 之 基于词典的正向最大匹配算法

基于词典的正向最大匹配算法,算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典。随着词典越来越大,算法的时空复杂性怎么权衡呢?

最频繁访问驻留缓存算法

在搜索系统中,如何缓存搜索最频繁的1000个搜索结果?自定制的精准短文本搜索服务项目代码 本文利用了ConcurrentHashMap和AtomicLong实现了线程安全且支持高并发的最频繁访问驻留缓存算法,除...

2016/07/18 16:06
1.2K
中文分词算法 之 词典机制性能优化与测试

中文分词的速度能有多快?120万字符/秒。词典机制的优化很重要,且看慢慢道来......

一种使用随机抽样梯度下降算法来预估词汇量的方法

一种使用随机抽样梯度下降算法来预估词汇量的方法

LRU (Least Recently Used) 算法的Java实现

LRU (Least Recently Used) 算法的Java实现

LRU
2015/07/15 21:58
1.6K
利用word分词通过计算词的语境来获得相关词

利用word分词通过计算词的语境来获得相关词

word v1.3 发布,Java 分布式中文分词组件

word v1.3 发布,Java 分布式中文分词组件

网络爬虫面临的挑战 之 链接构造

爬虫与反爬虫就好像是安全领域的破解与反破解一样,相互矛盾,相互克制,同时也相互促进。

Java8全新打造,英语学习supertool

superword是一个Java实现的英文单词分析软件,主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。

2015/03/29 04:54
560

没有更多内容

加载失败,请刷新页面

返回顶部
顶部