加载中
采集电子报纸

采集电子报纸,包括新华日报、楚天都市报、京九晚报、信息时报、羊城晚报

使用JSoup+CSSPath采集和讯网人物信息

使用JSoup+CSSPath采集和讯网人物信息

计算ITEYE博文在百度的收录与排名情况

计算ITEYE博文在百度的收录与排名情况

2015/04/04 04:00
176
我的ITEYE和OSCHINA博客的异同(截止2015年5月17日)

我的ITEYE和OSCHINA博客的异同

2015/04/03 05:17
341
七大自然语言处理领域的世界一流公司

七大自然语言处理领域的世界一流公司

2015/05/25 15:43
3.2K
一种通用的网页相似度检测算法

如果我们需要在海量的结构未知的网页库中找到和指定的网页相似度比较高的一些网页,我们该怎么办呢?本文提出的“一种通用的网页相似度检测算法”就是专门解决这个问题。

Amazon Dynamo的NWR模型

Amazon Dynamo的NWR模型,把CAP的选择权交给了用户,让用户自己选择CAP中的哪两个。

APDPlat如何自动建库建表并初始化数据?

APDPlat共支持10种数据库:DB2、DERBY、H2、HSQL、INFORMIX、MYSQL、ORACLE、POSTGRESQL、SQL_SERVER、SYBASE。

数据生成器

data-generator是一个Java实现的数据生成器开源项目。 如果你在从事大数据BI的工作,想对比一下MySQL、GreenPlum、Elasticsearch、Hive、Presto、Impala、Drill、HAWQ、Druid、Pinot、Kylin...

2018/04/29 23:12
857
对Nutch2.1抽象存储层的一些看法

对Nutch2.1抽象存储层的一些看法

中文分词算法 之 基于词典的全切分算法

中文分词算法 之 基于词典的全切分算法

搜索引擎的分片(shard)和副本(replica)机制

搜索引擎通过分片(shard)和副本(replica)实现了高性能、高伸缩和高可用。

基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式...

如何使用Eclipse在Github上开发使用Java8的Maven项目?

如何使用Eclipse在Github上开发使用Java8的Maven项目?

没有更多内容

加载失败,请刷新页面

返回顶部
顶部