加载中
搜索引擎的分片(shard)和副本(replica)机制

搜索引擎通过分片(shard)和副本(replica)实现了高性能、高伸缩和高可用。

七大自然语言处理领域的世界一流公司

七大自然语言处理领域的世界一流公司

2015/05/25 15:43
3.1K
如何使用Intellij IDEA开发Maven项目?

如何使用Intellij IDEA开发Maven项目?

基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式...

我的ITEYE和OSCHINA博客的异同(截止2015年5月17日)

我的ITEYE和OSCHINA博客的异同

2015/04/03 05:17
340
计算ITEYE博文在百度的收录与排名情况

计算ITEYE博文在百度的收录与排名情况

2015/04/04 04:00
175
计算OSCHINA博文在百度的收录与排名情况

计算OSCHINA博文在百度的收录与排名情况

2015/04/03 16:49
446
OSCHINA博文抄袭检查

比如我写了一篇文章:“使用Java8实现自己的个性化搜索引擎”,我想知道有哪些网站转载了我的文章,我该怎么办呢?

Nutch的发展历程

Nutch的发展历程

2015/04/08 06:54
559
Java8全新打造,英语学习supertool

superword是一个Java实现的英文单词分析软件,主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。

2015/03/29 04:54
425
ITEYE博文抄袭检查

比如我写了一篇文章:“使用Java8实现自己的个性化搜索引擎”,我想知道有哪些网站转载了我的文章,我该怎么办呢?

一种通用的网页相似度检测算法

如果我们需要在海量的结构未知的网页库中找到和指定的网页相似度比较高的一些网页,我们该怎么办呢?本文提出的“一种通用的网页相似度检测算法”就是专门解决这个问题。

网络爬虫面临的挑战 之 链接构造

爬虫与反爬虫就好像是安全领域的破解与反破解一样,相互矛盾,相互克制,同时也相互促进。

基于word分词提供的文本相似度算法来实现通用的网页相似度检测

基于word分词提供的文本相似度算法来实现通用的网页相似度检测

没有更多内容

加载失败,请刷新页面

返回顶部
顶部